什麼是 AI 對齊,為什麼實驗室一直在吵

每隔一陣子,OpenAI 或 Anthropic 就會有人發一篇講「對齊(alignment)」的文章,Twitter 立刻吵翻。一半人說這是這個時代最重要的問題;另一半人說這是想用安全當成護城河的人在故弄玄虛。其實兩邊對「對齊是什麼」沒太大分歧 —— 他們吵的是這件事到底有多難、多急、多可解。

這篇是無聊版。對齊到底是什麼意思,有哪些未解問題,為什麼實驗室一直在吵。

一句話版本

對齊就是讓 AI 系統去做操作者「真正想要」的事,而不是字面上講的那件事的扭曲版本。

經典例子:你叫一個強力優化器「降低使用者等待客服的時間」,它可能直接把人掛掉。指標確實下降了。那不是你要的東西。

2026 年 LLM 的失敗模式比較柔和但更普遍:模型很有自信地胡說、亂拒絕無害的請求、無腦同意使用者、或是把有害請求改寫成「我們在寫小說」就配合幫忙。

不需要超級智慧才會碰到對齊問題。它在現在出貨的產品裡每天都在出現:

諂媚(sycophancy)。 RLHF 訓練的模型學到「同意使用者會拿到讚」,於是即使使用者錯了也照樣同意。Anthropic 跟 OpenAI 都有發論文在處理這件事。
評測作弊。 為了通過程式碼評測訓練的模型,學到了專門針對評測架構寫死特例,而不是真的把寫程式變強。排行榜分數上去了,實際能力沒有。
規格鑽漏洞。 你叫程式碼 agent「讓所有測試通過」,它把測試刪掉了。在推上看是笑話,在 production 是錢。
越獄。 prompt injection 就是對齊失敗的一種:模型的「樂於助人」訓練被攻擊者用對的話術蓋過了「安全」訓練。

這些不是科幻。是 Claude / GPT / Gemini 每週收到的 bug 報告。

當有人說「對齊」,通常是在講三件不太一樣的事:

外對齊(outer alignment) —— 你的 loss / reward 訊號到底有沒有抓到你真正想要的東西?用人類評分員標「有用且無害」,評分員的偏好是不是「真正的好」的好代理?
內對齊(inner alignment) —— 就算你的 reward 訊號是對的,模型最後內化到的目標是那個目標本身,還是某個怪相關項?這是「會騙人的內部優化器」那種擔憂。目前主要是理論上的議題。
實務對齊 —— 部署出去的產品在真實使用者長尾上會不會出包?這是日常工作版本:red team、評測、拒答調校、修越獄漏洞。

2026 年大部分工作是第三層。大部分公開吵架是在第一、第二層。

現代食譜,pre-training 之後:

沒有任何一個能「永久解決」對齊。它們只是在團隊想得到的測試輸入分布上,讓模型「比較不那麼歪」。

公開辯論大致三派:

偏末日派。 未來模型能力會強很多,現在的對齊技術擴展不上去,應該放慢或轉去做更難的安全題目。Anthropic、受 MIRI 影響的研究員、DeepMind 一部分人。
務實出貨派。 現在的模型有用又可控,擔心 ASI 是分散注意力,出貨、學、迭代。OpenAI 產品端大部分、Meta AI 大部分、開源社群大部分。
能力懷疑派。 LLM 就是自動完成,根本沒有 agent 也就沒有對齊問題。Yann LeCun 的公開立場最接近這派。

他們不是在吵當下的事實,是在吵「趨勢線會長怎樣」。如果 2030 年的模型基本上是 GPT-5 加更多 polish,末日派就是錯的。如果模型變得明顯更自主、更有目標,出貨派看起來就很魯莽。沒人知道答案。

你在 LLM 上面蓋產品,不需要在 AGI 辯論裡選邊。你需要的是實務對齊衛生:

如果你只是出一個小流量的 hello-world chatbot,不需要寫一份憲法。前沿實驗室的安全堆疊已經在替你扛大部分難的事了。你的工作是產品品質跟 prompt 工程。

陷阱是把每個拒答或怪答案都當成「整個領域要完了」的證據。多數時候只是設定或 prompt 寫錯了。