護欄 (Guardrails)

圍繞在 LLM 周邊的程式或模型，用來過濾輸入輸出、阻擋不安全內容、強制 schema、限制模型行為。

Guardrails（護欄）是 LLM 的安全帶。它們位於使用者與模型之間、或模型與下游系統之間，根據規則檢查內容——擋 PII 外洩、拒絕有害話題、強制 JSON 輸出格式、遮罩機密、否決違反政策的 agent 動作。它們重要的原因是：LLM 是機率性的，光靠 prompt 文字沒辦法保證它遵守規則。有心人總會找到方法讓模型說不該說的話；guardrails 是 deterministic 的檢查，攔截漏網之魚。也是監管和企業特別重視的地方——「只靠 prompt 確保安全」過不了合規團隊。舉個例子：客服 chatbot。輸入 guardrail：偵測 prompt injection 嘗試並拒絕處理。輸出 guardrail：在回覆送到使用者前掃信用卡號、地址、違反政策的承諾（「我會退款給你」）。行動 guardrail：如果 agent 要呼叫退款工具，超過一定金額就需要 human approval。常見函式庫：Guardrails AI、NVIDIA NeMo Guardrails、Llama Guard、OpenAI Moderation API、Anthropic 的 safety classifier。自架選項像 Llama Guard 3 對不想要第三方依賴的開發者很受歡迎。延伸閱讀：alignment、content moderation、prompt injection、agent security。