AI 對齊 (Alignment)

研究與工程上讓 AI 系統的行為真正符合人類使用者意圖（而非字面指令或代理指標）的領域。

AI alignment 是讓 AI 系統真正做你想要它做的事的工作——而不是只照字面指令、或某個代理指標。它包含當下的工程問題（「這個 chatbot 應該拒絕有害請求」）跟長期的研究問題（「能力越來越強的系統怎麼確保不會追求跟人類利益偏離的目標？」）。它重要的原因是：AI 越強，意圖跟行為的落差就越危險。弱模型誤解你只是浪費幾秒。強 agent 在 production 誤解你可能造成資料外洩、執行錯誤動作；在前緣等級可能造成更難修復的問題。主要實驗室（Anthropic、OpenAI、DeepMind、英國 AI Safety Institute）都有 alignment 團隊發表相關研究。實際的 alignment 工作例子：RLHF 跟 Constitutional AI 都是在 refine 模型行為，讓它有用又不會產生有毒、有害、虛假內容。研究人員也研究 scalable oversight（怎麼監督比你聰明的模型）、interpretability（能不能看懂模型內部發生什麼）、對 deceptive optimization 的 robustness。這個領域有光譜：「applied alignment」（當下的 RLHF、refusal training、evaluation）跟「AGI alignment」（長期理論工作）。不同實驗室權重不同——Anthropic 成立時就把安全當作核心使命。延伸閱讀：RLHF、Constitutional AI、AGI、interpretability、AI safety。