护栏 (Guardrails)

围绕在 LLM 周边的程序或模型，用来过滤输入输出、阻挡不安全内容、强制 schema、限制模型行为。

Guardrails（护栏）是 LLM 的安全带。它们位于用户与模型之间、或模型与下游系统之间，根据规则检查内容——挡 PII 泄露、拒绝有害话题、强制 JSON 输出格式、遮蔽机密、否决违反政策的 agent 动作。它们重要的原因是：LLM 是概率性的，光靠 prompt 文字没办法保证它遵守规则。有心人总会找到方法让模型说不该说的话；guardrails 是 deterministic 的检查，拦截漏网之鱼。也是监管和企业特别重视的地方——「只靠 prompt 确保安全」过不了合规团队。举个例子：客服 chatbot。输入 guardrail：检测 prompt injection 尝试并拒绝处理。输出 guardrail：在回复送到用户前扫信用卡号、地址、违反政策的承诺（「我会退款给你」）。行动 guardrail：如果 agent 要调用退款工具，超过一定金额就需要 human approval。常见库：Guardrails AI、NVIDIA NeMo Guardrails、Llama Guard、OpenAI Moderation API、Anthropic 的 safety classifier。自部署选项像 Llama Guard 3 对不想要第三方依赖的开发者很受欢迎。延伸阅读：alignment、content moderation、prompt injection、agent security。