跳到内容

术语★★★★9 分钟阅读

RLHF vs DPO:现代对齐技术的差别

预训练之后,实验室怎么让模型真的回答你的问题而不是接话?两大家族的差别。

登入以收藏

GPT-3 在 2020 年推出时,你问它「怎么烤面包」,它会回你五个你应该再问的问题,因为训练数据就长这样 — 网络文字里一个问题常常引出另一个问题。从「网络自动补全」变成「会回答的好用助手」这个转变就是对齐。RLHF 和 DPO 是实验室做这件事的两大主流技术。

这篇对没在训模型、但想理解为什么某些模型很谄媚、为什么有些拒绝无害问题、为什么模型在不同版本间行为会变的人有用。数学很复杂但概念不会。

这些技术在 pipeline 哪里

现代前沿 LLM 大致经过三个阶段:

  1. 预训练 — 在数万亿个网络 token 上预测下一个 token。结果:模型知道事实和语言结构,但行为不像助手。
  2. 监督微调(SFT) — 给它 1 万到 10 万个高质量「问题 → 理想答案」配对(人类写的)。结果:现在会像助手一样回答,但还不一致、容易跑偏。
  3. 偏好优化 — RLHF 或 DPO。给它一对答案,告诉它人类偏好哪个。结果:模型答案能持续符合人类偏好(有用、无害、诚实、格式好等)。

RLHF 和 DPO 都是做第 3 步的方法。

RLHF(从人类反馈强化学习)

RLHF 是最早的技术。OpenAI 在 2022 年的 InstructGPT 用了,接着 ChatGPT,然后大家都抄。分两个子步骤:

**步骤 A:训练 reward model。**给人类看模型输出的配对(同一个提示词下「答案 A」 vs「答案 B」),问哪个比较好。收集数万个这种比较。训练一个独立的神经网络 — reward model — 预测人类会偏好哪个答案。

步骤 B:用强化学习更新 LLM,让它产出的答案在 reward model 那边拿高分。具体上用一个叫 PPO(Proximal Policy Optimization)的算法,微调 LLM 的权重以最大化 reward,同时不能离原本的 SFT 模型太远。

整个流程很细腻。reward model 可以被反制(LLM 找到拿高分但不好的对抗性输出)。训练不稳定 — reward 压力太大,模型会崩成最大化 reward 的重复胡言。内存里同时要三个模型副本(训练中的 LLM、冻结的参考、reward model)。算力很贵。

RLHF 做得好的时候,模型会感觉精致、有用。出问题时,你会得到谄媚(「好棒的问题!」)、拒绝无害请求(明明很正常的事却说「无法协助」)、或不同主题行为不一致。

DPO(直接偏好优化)

DPO 由 Rafailov 等人在 2023 年的论文提出。2024 年快速流行,现在很多实验室默认用 DPO。聪明的洞见:其实不需要独立的 reward model。可以直接用偏好数据,透过 RLHF 数学推导出来的损失函数,直接更新 LLM。

实务上:收集跟 RLHF 一样的偏好配对数据,但不是训练 reward model + RL,而是用一次监督学习风格的更新更新 LLM,提高偏好答案的概率、降低被拒绝答案的概率,加上正则化避免模型偏离太远。

大家为什么换过去:

  • **更简单。**一个训练步骤,没有 reward model、没有 PPO。维护的代码少很多。
  • **更稳定。**RLHF 那种病态的 reward hacking 失败在 DPO 大致不会发生。
  • **更便宜。**达到类似质量,大约少 2-3 倍算力。
  • **更容易迭代。**可以快速跑多种变体。

Llama 3 用 DPO。Mistral 用 DPO。多数开放权重模型用 DPO 或其变体。Anthropic 和 OpenAI 内部用混合技术,没完全披露;两家可能都用 DPO 风格的直接优化加上其他自家方法。

在最终模型上实际感觉如何

从用户角度这里开始有趣。偏好数据和技术的选择形塑了模型擅长什么:

  • 大量 RLHF 在安全偏好上 → 模型过度小心、拒绝边缘问题、加免责声明。
  • 大量 DPO 在有用性偏好上 → 模型几乎总是尝试回答,有时答错因为被训练成不会说「我不知道」。
  • 偏好数据来自狭窄的标注者群体 → 模型带有那群人的盲点和风格习惯。为什么 2024-2025 年的模型常常有相似「声音」:它们大致用相似的外包标注者池调过。
  • Constitutional AI / RLAIF(从 AI 反馈强化学习) — Anthropic 的变体,用 AI 评论替代部分人类偏好标注。较便宜但 AI 评论者引入自己的偏见。

你会看到的较新变体

  • IPO(身份偏好优化) — DPO 变体,处理偏好和被拒绝答案非常相似的情况。
  • KTO(Kahneman-Tversky 优化) — 只用「好 / 坏」标记,不用 A vs B 比较,有时收集起来更便宜。
  • ORPO(Odds Ratio 偏好优化) — 把 SFT 和偏好学习合并成单一步骤。
  • GRPO(Group Relative Policy Optimization) — DeepSeek 用在 R1 和 V3 等推理模型上,针对多个采样输出做优化。

对非研究员来说,重点是:「偏好优化」是一族技术,实验室一直在试新的。不同族产出微妙不同的模型个性和能力。

这些对没在训练模型的人意味什么

**模型行为是设计选择,不是事实。**Claude 拒绝某个 GPT-5 会回答的事,那是实验室做的偏好数据选择。新模型版本「感觉不一样」时,SFT 和偏好数据可能变了。

**开源等于可调。**你可以用消费级硬件用自己的偏好数据 DPO-tune 一个开放权重模型(像 Llama 3 或 Qwen)。「无审查」或领域特化的模型就是这样做的。axolotl、trl 这类工具让这件事变亲民。

**偏好数据才是真正的护城河。**算力和架构越来越商品化。2026 年 Claude / GPT / Gemini 的差异化大致在「谁有更好的偏好数据、跟用户更好的反馈循环」。

什么时候不用在意

如果你通过 API 用 LLM、没训练自己的,不需要知道 RLHF vs DPO 内部机制就能 ship 产品。你需要的是:察觉到模型的语气、拒绝模式、怪癖都来自这些流程,不是某种不可变的「AI 性格」。如果某个模型对你的场景太谄媚,换模型 — 那可以解决。

下一步

  • AI 对齐解释 — 「对齐」是什么意思、实验室为什么吵
  • 微调 vs 提示工程 — 哪些问题用调模型解、哪些用调提示词解
  • LoRA vs 微调 vs RAG — DPO 风格的调整怎么放在定制化模型行为的整体景观里

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more