Constitutional AI（宪法式 AI）

Anthropic 的训练方法：用一组写好的原则（「宪法」）加上 AI 自我反馈训练模型，不靠大量人类标注就能让模型有用且无害。

Constitutional AI（CAI）是 Claude 背后的训练方法。跟付钱请几千个人类标注有害输出不同，Anthropic 给模型一组写好的原则（「宪法」），训练模型用这些原则 critique 并修改自己的输出。最后再用 preference learning 训练模型偏好修改后的版本。它重要的原因是：纯 RLHF 在安全议题上需要大量人类标注。Constitutional AI 把多数工作交给模型自己，更容易规模化，产生的是有明确、可检视原则的模型，而不是一套不透明的行为策略。Anthropic 公开 Claude 的宪法——你可以直接读指引拒绝行为的原则是什么。运作例子：模型收到请求、草拟回答，然后被问「根据原则 X（例如『不协助违法活动』），这个回答可以吗？不行就改」。改完的回答成为新的训练目标。经过多轮这种自我 critique，模型默认就会跟原则一致，不需要 system prompt。 Claude 的宪法混合了联合国人权宣言、Apple 服务条款、Anthropic 自己的价值观的原则。这个技术影响了整个领域——你在很多新训练论文里会看到「AI feedback」「self-critique」的概念。延伸阅读：RLHF、DPO、alignment、helpful + harmless。