Constitutional AI（憲法式 AI）

Anthropic 的訓練方法：用一組寫好的原則（「憲法」）加上 AI 自我反饋訓練模型，不靠大量人類標註就能讓模型有用且無害。

Constitutional AI（CAI）是 Claude 背後的訓練方法。跟付錢請幾千個人類標註有害輸出不同，Anthropic 給模型一組寫好的原則（「憲法」），訓練模型用這些原則 critique 並修改自己的輸出。最後再用 preference learning 訓練模型偏好修改後的版本。它重要的原因是：純 RLHF 在安全議題上需要大量人類標註。Constitutional AI 把多數工作交給模型自己，更容易規模化，產生的是有明確、可檢視原則的模型，而不是一套不透明的行為政策。Anthropic 公開 Claude 的憲法——你可以直接讀指引拒絕行為的原則是什麼。運作例子：模型收到請求、草擬回答，然後被問「根據原則 X（例如『不協助違法活動』），這個回答可以嗎？不行就修」。修改後的回答成為新的訓練目標。經過多輪這種自我 critique，模型預設就會跟原則一致，不需要 system prompt。 Claude 的憲法混合了聯合國人權宣言、Apple 服務條款、Anthropic 自己的價值觀的原則。這個技術影響了整個領域——你在很多新訓練論文裡會看到「AI feedback」「self-critique」的概念。延伸閱讀：RLHF、DPO、alignment、helpful + harmless。