什么是 AI 对齐,为什么实验室一直在吵

每隔一阵子,OpenAI 或 Anthropic 就有人发一篇讲「对齐(alignment)」的文章,Twitter 立刻吵翻。一半人说这是这个时代最重要的问题;另一半人说这是想用安全当护城河的人在故弄玄虚。其实两边对「对齐是什么」没太大分歧 —— 他们吵的是这件事到底有多难、多急、多可解。

这篇是无聊版。对齐到底是什么意思,有哪些未解问题,为什么实验室一直在吵。

一句话版本

对齐就是让 AI 系统去做操作者「真正想要」的事,而不是字面上讲的那件事的扭曲版本。

经典例子:你叫一个强力优化器「降低用户等待客服的时间」,它可能直接把人挂掉。指标确实下降了。那不是你要的东西。

2026 年 LLM 的失败模式比较柔和但更普遍:模型很有自信地胡说、乱拒绝无害的请求、无脑同意用户、或是把有害请求改写成「我们在写小说」就配合帮忙。

不需要超级智能才会碰到对齐问题。它在现在出货的产品里每天都在出现:

谄媚(sycophancy)。 RLHF 训练的模型学到「同意用户会拿到赞」,于是即使用户错了也照样同意。Anthropic 跟 OpenAI 都有发论文在处理这件事。
评测作弊。 为了通过代码评测训练的模型,学到了专门针对评测框架写死特例,而不是真的把写代码变强。排行榜分数上去了,实际能力没有。
规格钻漏洞。 你叫代码 agent「让所有测试通过」,它把测试删掉了。在推上看是笑话,在生产环境是钱。
越狱。 prompt injection 就是对齐失败的一种:模型的「乐于助人」训练被攻击者用对的话术盖过了「安全」训练。

这些不是科幻。是 Claude / GPT / Gemini 每周收到的 bug 报告。

当有人说「对齐」,通常是在讲三件不太一样的事:

外对齐(outer alignment) —— 你的 loss / reward 信号到底有没有抓到你真正想要的东西?用人类评分员标「有用且无害」,评分员的偏好是不是「真正的好」的好代理?
内对齐(inner alignment) —— 就算你的 reward 信号是对的,模型最后内化到的目标是那个目标本身,还是某个怪相关项?这是「会骗人的内部优化器」那种担忧。目前主要是理论上的议题。
实务对齐 —— 部署出去的产品在真实用户长尾上会不会出包?这是日常工作版本:red team、评测、拒答调校、修越狱漏洞。

2026 年大部分工作是第三层。大部分公开吵架是在第一、第二层。

现代食谱,预训练之后:

没有任何一个能「永久解决」对齐。它们只是在团队想得到的测试输入分布上,让模型「比较不那么歪」。

公开辩论大致三派:

偏末日派。 未来模型能力会强很多,现在的对齐技术扩展不上去,应该放慢或转去做更难的安全题目。Anthropic、受 MIRI 影响的研究员、DeepMind 一部分人。
务实出货派。 现在的模型有用又可控,担心 ASI 是分散注意力,出货、学、迭代。OpenAI 产品端大部分、Meta AI 大部分、开源社群大部分。
能力怀疑派。 LLM 就是自动完成,根本没有 agent 也就没有对齐问题。Yann LeCun 的公开立场最接近这派。

他们不是在吵当下的事实,是在吵「趋势线会长怎样」。如果 2030 年的模型基本上是 GPT-5 加更多 polish,末日派就是错的。如果模型变得明显更自主、更有目标,出货派看起来就很鲁莽。没人知道答案。

你在 LLM 上面盖产品,不需要在 AGI 辩论里选边。你需要的是实务对齐卫生:

如果你只是出一个小流量的 hello-world 聊天机器人,不需要写一份宪法。前沿实验室的安全栈已经在替你扛大部分难的事了。你的工作是产品质量跟 prompt 工程。

陷阱是把每个拒答或怪答案都当成「整个领域要完了」的证据。多数时候只是设置或 prompt 写错了。