跳到内容

技术

护栏 (Guardrails)

Guardrails

围绕在 LLM 周边的程序或模型,用来过滤输入输出、阻挡不安全内容、强制 schema、限制模型行为。

登入以收藏
Guardrails(护栏)是 LLM 的安全带。它们位于用户与模型之间、或模型与下游系统之间,根据规则检查内容——挡 PII 泄露、拒绝有害话题、强制 JSON 输出格式、遮蔽机密、否决违反政策的 agent 动作。 它们重要的原因是:LLM 是概率性的,光靠 prompt 文字没办法保证它遵守规则。有心人总会找到方法让模型说不该说的话;guardrails 是 deterministic 的检查,拦截漏网之鱼。也是监管和企业特别重视的地方——「只靠 prompt 确保安全」过不了合规团队。 举个例子:客服 chatbot。输入 guardrail:检测 prompt injection 尝试并拒绝处理。输出 guardrail:在回复送到用户前扫信用卡号、地址、违反政策的承诺(「我会退款给你」)。行动 guardrail:如果 agent 要调用退款工具,超过一定金额就需要 human approval。 常见库:Guardrails AI、NVIDIA NeMo Guardrails、Llama Guard、OpenAI Moderation API、Anthropic 的 safety classifier。自部署选项像 Llama Guard 3 对不想要第三方依赖的开发者很受欢迎。延伸阅读:alignment、content moderation、prompt injection、agent security。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

护栏 (Guardrails) · BuilderWorld