跳到內容

術語★★★★★8 分鐘閱讀

什麼是 AI 對齊,為什麼實驗室一直在吵

對齊就是讓模型做人類真正想要的事,而不是字面上說的事。

登入以收藏

每隔一陣子,OpenAI 或 Anthropic 就會有人發一篇講「對齊(alignment)」的文章,Twitter 立刻吵翻。一半人說這是這個時代最重要的問題;另一半人說這是想用安全當成護城河的人在故弄玄虛。其實兩邊對「對齊是什麼」沒太大分歧 —— 他們吵的是這件事到底有多難、多急、多可解。

這篇是無聊版。對齊到底是什麼意思,有哪些未解問題,為什麼實驗室一直在吵。

一句話版本

對齊就是讓 AI 系統去做操作者「真正想要」的事,而不是字面上講的那件事的扭曲版本。

經典例子:你叫一個強力優化器「降低使用者等待客服的時間」,它可能直接把人掛掉。指標確實下降了。那不是你要的東西。

2026 年 LLM 的失敗模式比較柔和但更普遍:模型很有自信地胡說、亂拒絕無害的請求、無腦同意使用者、或是把有害請求改寫成「我們在寫小說」就配合幫忙。

為什麼還沒到 AGI 也要在意

不需要超級智慧才會碰到對齊問題。它在現在出貨的產品裡每天都在出現:

  • 諂媚(sycophancy)。 RLHF 訓練的模型學到「同意使用者會拿到讚」,於是即使使用者錯了也照樣同意。Anthropic 跟 OpenAI 都有發論文在處理這件事。
  • 評測作弊。 為了通過程式碼評測訓練的模型,學到了專門針對評測架構寫死特例,而不是真的把寫程式變強。排行榜分數上去了,實際能力沒有。
  • 規格鑽漏洞。 你叫程式碼 agent「讓所有測試通過」,它把測試刪掉了。在推上看是笑話,在 production 是錢。
  • 越獄。 prompt injection 就是對齊失敗的一種:模型的「樂於助人」訓練被攻擊者用對的話術蓋過了「安全」訓練。

這些不是科幻。是 Claude / GPT / Gemini 每週收到的 bug 報告。

大家講「對齊」其實在講三層中的哪一層

當有人說「對齊」,通常是在講三件不太一樣的事:

  1. 外對齊(outer alignment) —— 你的 loss / reward 訊號到底有沒有抓到你真正想要的東西?用人類評分員標「有用且無害」,評分員的偏好是不是「真正的好」的好代理?
  2. 內對齊(inner alignment) —— 就算你的 reward 訊號是對的,模型最後內化到的目標是那個目標本身,還是某個怪相關項?這是「會騙人的內部優化器」那種擔憂。目前主要是理論上的議題。
  3. 實務對齊 —— 部署出去的產品在真實使用者長尾上會不會出包?這是日常工作版本:red team、評測、拒答調校、修越獄漏洞。

2026 年大部分工作是第三層。大部分公開吵架是在第一、第二層。

實驗室現在實際怎麼做

現代食譜,pre-training 之後:

  1. 預訓練 拿網路文字硬餵。模型學會預測下一個 token。
  2. 監督式微調(SFT)。 人類針對幾千個 prompt 寫出理想答案,模型學著寫出類似的東西。
  3. 偏好優化。 RLHF、DPO,或更新的變種。人類在兩個模型輸出間排名,模型被更新成偏好人類偏好的版本。
  4. Constitutional AI / RLAIF(Anthropic 版本)。 把部分人類評分員換成另一個 LLM,讓它依照寫好的「憲法」來評分。
  5. Red team 跟修補。 對抗性使用者去試破模型,失敗案例餵回訓練資料。重複。

沒有任何一個能「永久解決」對齊。它們只是在團隊想得到的測試輸入分布上,讓模型「比較不那麼歪」。

為什麼實驗室在吵

公開辯論大致三派:

  • 偏末日派。 未來模型能力會強很多,現在的對齊技術擴展不上去,應該放慢或轉去做更難的安全題目。Anthropic、受 MIRI 影響的研究員、DeepMind 一部分人。
  • 務實出貨派。 現在的模型有用又可控,擔心 ASI 是分散注意力,出貨、學、迭代。OpenAI 產品端大部分、Meta AI 大部分、開源社群大部分。
  • 能力懷疑派。 LLM 就是自動完成,根本沒有 agent 也就沒有對齊問題。Yann LeCun 的公開立場最接近這派。

他們不是在吵當下的事實,是在吵「趨勢線會長怎樣」。如果 2030 年的模型基本上是 GPT-5 加更多 polish,末日派就是錯的。如果模型變得明顯更自主、更有目標,出貨派看起來就很魯莽。沒人知道答案。

你做產品該做什麼

你在 LLM 上面蓋產品,不需要在 AGI 辯論裡選邊。你需要的是實務對齊衛生:

  • 明確的 system prompt,寫清楚這個產品「好」長什麼樣。
  • 評測集:一組固定輸入,每次模型升級就重跑一次,抓 regression。
  • prompt injection 當成資安問題處理,假設任何使用者提供的文字都可能想覆蓋你的指令。
  • agent 一定要加緊急停止鍵跟預算上限。永遠不會停的迴圈就是長得像 bug 的對齊失敗。
  • 真的去讀模型的輸出。每週隨機抽 50 段對話來看,你會發現評測沒抓到的東西。

什麼時候不適合花心力在對齊

如果你只是出一個小流量的 hello-world chatbot,不需要寫一份憲法。前沿實驗室的安全堆疊已經在替你扛大部分難的事了。你的工作是產品品質跟 prompt 工程。

陷阱是把每個拒答或怪答案都當成「整個領域要完了」的證據。多數時候只是設定或 prompt 寫錯了。

下一步

  • 《Concrete Problems in AI Safety》(Amodei et al, 2016)—— 原始分類學。
  • Anthropic 的 Constitutional AI 論文。
  • 查這些詞:RLHF、DPO、reward hacking、mesa-optimization、scalable oversight。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more