跳到內容

技術

Constitutional AI(憲法式 AI)

Constitutional AI

Anthropic 的訓練方法:用一組寫好的原則(「憲法」)加上 AI 自我反饋訓練模型,不靠大量人類標註就能讓模型有用且無害。

登入以收藏
Constitutional AI(CAI)是 Claude 背後的訓練方法。跟付錢請幾千個人類標註有害輸出不同,Anthropic 給模型一組寫好的原則(「憲法」),訓練模型用這些原則 critique 並修改自己的輸出。最後再用 preference learning 訓練模型偏好修改後的版本。 它重要的原因是:純 RLHF 在安全議題上需要大量人類標註。Constitutional AI 把多數工作交給模型自己,更容易規模化,產生的是有明確、可檢視原則的模型,而不是一套不透明的行為政策。Anthropic 公開 Claude 的憲法——你可以直接讀指引拒絕行為的原則是什麼。 運作例子:模型收到請求、草擬回答,然後被問「根據原則 X(例如『不協助違法活動』),這個回答可以嗎?不行就修」。修改後的回答成為新的訓練目標。經過多輪這種自我 critique,模型預設就會跟原則一致,不需要 system prompt。 Claude 的憲法混合了聯合國人權宣言、Apple 服務條款、Anthropic 自己的價值觀的原則。這個技術影響了整個領域——你在很多新訓練論文裡會看到「AI feedback」「self-critique」的概念。延伸閱讀:RLHF、DPO、alignment、helpful + harmless。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more