跳到內容

技術

護欄 (Guardrails)

Guardrails

圍繞在 LLM 周邊的程式或模型,用來過濾輸入輸出、阻擋不安全內容、強制 schema、限制模型行為。

登入以收藏
Guardrails(護欄)是 LLM 的安全帶。它們位於使用者與模型之間、或模型與下游系統之間,根據規則檢查內容——擋 PII 外洩、拒絕有害話題、強制 JSON 輸出格式、遮罩機密、否決違反政策的 agent 動作。 它們重要的原因是:LLM 是機率性的,光靠 prompt 文字沒辦法保證它遵守規則。有心人總會找到方法讓模型說不該說的話;guardrails 是 deterministic 的檢查,攔截漏網之魚。也是監管和企業特別重視的地方——「只靠 prompt 確保安全」過不了合規團隊。 舉個例子:客服 chatbot。輸入 guardrail:偵測 prompt injection 嘗試並拒絕處理。輸出 guardrail:在回覆送到使用者前掃信用卡號、地址、違反政策的承諾(「我會退款給你」)。行動 guardrail:如果 agent 要呼叫退款工具,超過一定金額就需要 human approval。 常見函式庫:Guardrails AI、NVIDIA NeMo Guardrails、Llama Guard、OpenAI Moderation API、Anthropic 的 safety classifier。自架選項像 Llama Guard 3 對不想要第三方依賴的開發者很受歡迎。延伸閱讀:alignment、content moderation、prompt injection、agent security。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

護欄 (Guardrails) · BuilderWorld