AI alignment 是讓 AI 系統真正做你想要它做的事的工作——而不是只照字面指令、或某個代理指標。它包含當下的工程問題(「這個 chatbot 應該拒絕有害請求」)跟長期的研究問題(「能力越來越強的系統怎麼確保不會追求跟人類利益偏離的目標?」)。 它重要的原因是:AI 越強,意圖跟行為的落差就越危險。弱模型誤解你只是浪費幾秒。強 agent 在 production 誤解你可能造成資料外洩、執行錯誤動作;在前緣等級可能造成更難修復的問題。主要實驗室(Anthropic、OpenAI、DeepMind、英國 AI Safety Institute)都有 alignment 團隊發表相關研究。 實際的 alignment 工作例子:RLHF 跟 Constitutional AI 都是在 refine 模型行為,讓它有用又不會產生有毒、有害、虛假內容。研究人員也研究 scalable oversight(怎麼監督比你聰明的模型)、interpretability(能不能看懂模型內部發生什麼)、對 deceptive optimization 的 robustness。 這個領域有光譜:「applied alignment」(當下的 RLHF、refusal training、evaluation)跟「AGI alignment」(長期理論工作)。不同實驗室權重不同——Anthropic 成立時就把安全當作核心使命。延伸閱讀:RLHF、Constitutional AI、AGI、interpretability、AI safety。