Anthropic 发表 CAI-2 方法论

Anthropic 发表了一篇 47 页的论文,描述 Constitutional AI 2(CAI-2),也就是 Claude 4.x 家族内部使用的方法论。最大的贡献是「原则蒸馏」 — 一种训练流程,让模型看自己的输出对照宪章被评估的结果,直接内化这些原则,而不是走传统 RLHF 那种用人类偏好对标的奖励建模。

为什么技术上重要:传统 RLHF 需要昂贵的人类标注,而且泛化性窄。CAI-2 据称能让模型把 alignment 行为泛化到从未明确标注过的情境,包括新型的有害 prompt。论文有 ablation 显示 CAI-2 训练的模型在「分布外安全评估」上比同基础能力的 RLHF 模型分数高。

对中文圈 AI 社群来说,论文还附了翻译的补充材料,Anthropic 似乎刻意推跨语言研究互动。这套方法论预算够的实验室都能复制;预期中国实验室(Qwen、DeepSeek、Hunyuan)几个月内会推出各自的变体。