跳到内容

技术

Constitutional AI(宪法式 AI)

Constitutional AI

Anthropic 的训练方法:用一组写好的原则(「宪法」)加上 AI 自我反馈训练模型,不靠大量人类标注就能让模型有用且无害。

登入以收藏
Constitutional AI(CAI)是 Claude 背后的训练方法。跟付钱请几千个人类标注有害输出不同,Anthropic 给模型一组写好的原则(「宪法」),训练模型用这些原则 critique 并修改自己的输出。最后再用 preference learning 训练模型偏好修改后的版本。 它重要的原因是:纯 RLHF 在安全议题上需要大量人类标注。Constitutional AI 把多数工作交给模型自己,更容易规模化,产生的是有明确、可检视原则的模型,而不是一套不透明的行为策略。Anthropic 公开 Claude 的宪法——你可以直接读指引拒绝行为的原则是什么。 运作例子:模型收到请求、草拟回答,然后被问「根据原则 X(例如『不协助违法活动』),这个回答可以吗?不行就改」。改完的回答成为新的训练目标。经过多轮这种自我 critique,模型默认就会跟原则一致,不需要 system prompt。 Claude 的宪法混合了联合国人权宣言、Apple 服务条款、Anthropic 自己的价值观的原则。这个技术影响了整个领域——你在很多新训练论文里会看到「AI feedback」「self-critique」的概念。延伸阅读:RLHF、DPO、alignment、helpful + harmless。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

Constitutional AI(宪法式 AI) · BuilderWorld