Anthropic 發表了一篇 47 頁的論文,描述 Constitutional AI 2(CAI-2),也就是 Claude 4.x 家族內部使用的方法論。最大的貢獻是「原則蒸餾」 — 一種訓練流程,讓模型看自己的輸出對照憲章被評估的結果,直接內化這些原則,而不是走傳統 RLHF 那種用人類偏好對標的獎勵建模。
為什麼技術上重要:傳統 RLHF 需要昂貴的人類標註,而且泛化性窄。CAI-2 據稱能讓模型把 alignment 行為泛化到從未明確標註過的情境,包括新型的有害 prompt。論文有 ablation 顯示 CAI-2 訓練的模型在「分布外安全評估」上比同基礎能力的 RLHF 模型分數高。
對中文圈 AI 社群來說,論文還附了翻譯的補充材料,Anthropic 似乎刻意推跨語言研究互動。這套方法論預算夠的實驗室都能複製;預期中國實驗室(Qwen、DeepSeek、Hunyuan)幾個月內會推出各自的變體。