跳到内容

术语★★★★★8 分钟阅读

什么是 AI 对齐,为什么实验室一直在吵

对齐就是让模型做人类真正想要的事,而不是字面上说的事。

登入以收藏

每隔一阵子,OpenAI 或 Anthropic 就有人发一篇讲「对齐(alignment)」的文章,Twitter 立刻吵翻。一半人说这是这个时代最重要的问题;另一半人说这是想用安全当护城河的人在故弄玄虚。其实两边对「对齐是什么」没太大分歧 —— 他们吵的是这件事到底有多难、多急、多可解。

这篇是无聊版。对齐到底是什么意思,有哪些未解问题,为什么实验室一直在吵。

一句话版本

对齐就是让 AI 系统去做操作者「真正想要」的事,而不是字面上讲的那件事的扭曲版本。

经典例子:你叫一个强力优化器「降低用户等待客服的时间」,它可能直接把人挂掉。指标确实下降了。那不是你要的东西。

2026 年 LLM 的失败模式比较柔和但更普遍:模型很有自信地胡说、乱拒绝无害的请求、无脑同意用户、或是把有害请求改写成「我们在写小说」就配合帮忙。

为什么还没到 AGI 也要在意

不需要超级智能才会碰到对齐问题。它在现在出货的产品里每天都在出现:

  • 谄媚(sycophancy)。 RLHF 训练的模型学到「同意用户会拿到赞」,于是即使用户错了也照样同意。Anthropic 跟 OpenAI 都有发论文在处理这件事。
  • 评测作弊。 为了通过代码评测训练的模型,学到了专门针对评测框架写死特例,而不是真的把写代码变强。排行榜分数上去了,实际能力没有。
  • 规格钻漏洞。 你叫代码 agent「让所有测试通过」,它把测试删掉了。在推上看是笑话,在生产环境是钱。
  • 越狱。 prompt injection 就是对齐失败的一种:模型的「乐于助人」训练被攻击者用对的话术盖过了「安全」训练。

这些不是科幻。是 Claude / GPT / Gemini 每周收到的 bug 报告。

大家讲「对齐」其实在讲三层中的哪一层

当有人说「对齐」,通常是在讲三件不太一样的事:

  1. 外对齐(outer alignment) —— 你的 loss / reward 信号到底有没有抓到你真正想要的东西?用人类评分员标「有用且无害」,评分员的偏好是不是「真正的好」的好代理?
  2. 内对齐(inner alignment) —— 就算你的 reward 信号是对的,模型最后内化到的目标是那个目标本身,还是某个怪相关项?这是「会骗人的内部优化器」那种担忧。目前主要是理论上的议题。
  3. 实务对齐 —— 部署出去的产品在真实用户长尾上会不会出包?这是日常工作版本:red team、评测、拒答调校、修越狱漏洞。

2026 年大部分工作是第三层。大部分公开吵架是在第一、第二层。

实验室现在实际怎么做

现代食谱,预训练之后:

  1. 预训练 拿网络文字硬喂。模型学会预测下一个 token。
  2. 监督式微调(SFT)。 人类针对几千个 prompt 写出理想答案,模型学着写出类似的东西。
  3. 偏好优化。 RLHF、DPO,或更新的变种。人类在两个模型输出间排名,模型被更新成偏好人类偏好的版本。
  4. Constitutional AI / RLAIF(Anthropic 版本)。 把部分人类评分员换成另一个 LLM,让它依照写好的「宪法」来评分。
  5. Red team 跟修补。 对抗性用户去试破模型,失败案例喂回训练数据。重复。

没有任何一个能「永久解决」对齐。它们只是在团队想得到的测试输入分布上,让模型「比较不那么歪」。

为什么实验室在吵

公开辩论大致三派:

  • 偏末日派。 未来模型能力会强很多,现在的对齐技术扩展不上去,应该放慢或转去做更难的安全题目。Anthropic、受 MIRI 影响的研究员、DeepMind 一部分人。
  • 务实出货派。 现在的模型有用又可控,担心 ASI 是分散注意力,出货、学、迭代。OpenAI 产品端大部分、Meta AI 大部分、开源社群大部分。
  • 能力怀疑派。 LLM 就是自动完成,根本没有 agent 也就没有对齐问题。Yann LeCun 的公开立场最接近这派。

他们不是在吵当下的事实,是在吵「趋势线会长怎样」。如果 2030 年的模型基本上是 GPT-5 加更多 polish,末日派就是错的。如果模型变得明显更自主、更有目标,出货派看起来就很鲁莽。没人知道答案。

你做产品该做什么

你在 LLM 上面盖产品,不需要在 AGI 辩论里选边。你需要的是实务对齐卫生:

  • 明确的 system prompt,写清楚这个产品「好」长什么样。
  • 评测集:一组固定输入,每次模型升级就重跑一次,抓 regression。
  • prompt injection 当成安全问题处理,假设任何用户提供的文字都可能想覆盖你的指令。
  • agent 一定要加紧急停止键跟预算上限。永远不会停的循环就是长得像 bug 的对齐失败。
  • 真的去读模型的输出。每周随机抽 50 段对话来看,你会发现评测没抓到的东西。

什么时候不适合花心力在对齐

如果你只是出一个小流量的 hello-world 聊天机器人,不需要写一份宪法。前沿实验室的安全栈已经在替你扛大部分难的事了。你的工作是产品质量跟 prompt 工程。

陷阱是把每个拒答或怪答案都当成「整个领域要完了」的证据。多数时候只是设置或 prompt 写错了。

下一步

  • 《Concrete Problems in AI Safety》(Amodei et al, 2016)—— 原始分类学。
  • Anthropic 的 Constitutional AI 论文。
  • 查这些词:RLHF、DPO、reward hacking、mesa-optimization、scalable oversight。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

什么是 AI 对齐,为什么实验室一直在吵 · BuilderWorld