RLHF vs DPO:现代对齐技术的差别

GPT-3 在 2020 年推出时,你问它「怎么烤面包」,它会回你五个你应该再问的问题,因为训练数据就长这样 — 网络文字里一个问题常常引出另一个问题。从「网络自动补全」变成「会回答的好用助手」这个转变就是对齐。RLHF 和 DPO 是实验室做这件事的两大主流技术。

这篇对没在训模型、但想理解为什么某些模型很谄媚、为什么有些拒绝无害问题、为什么模型在不同版本间行为会变的人有用。数学很复杂但概念不会。

这些技术在 pipeline 哪里

现代前沿 LLM 大致经过三个阶段:

RLHF 和 DPO 都是做第 3 步的方法。

RLHF 是最早的技术。OpenAI 在 2022 年的 InstructGPT 用了,接着 ChatGPT,然后大家都抄。分两个子步骤:

**步骤 A:训练 reward model。**给人类看模型输出的配对(同一个提示词下「答案 A」 vs「答案 B」),问哪个比较好。收集数万个这种比较。训练一个独立的神经网络 — reward model — 预测人类会偏好哪个答案。

步骤 B:用强化学习更新 LLM,让它产出的答案在 reward model 那边拿高分。具体上用一个叫 PPO(Proximal Policy Optimization)的算法,微调 LLM 的权重以最大化 reward,同时不能离原本的 SFT 模型太远。

整个流程很细腻。reward model 可以被反制(LLM 找到拿高分但不好的对抗性输出)。训练不稳定 — reward 压力太大,模型会崩成最大化 reward 的重复胡言。内存里同时要三个模型副本(训练中的 LLM、冻结的参考、reward model)。算力很贵。

RLHF 做得好的时候,模型会感觉精致、有用。出问题时,你会得到谄媚(「好棒的问题!」)、拒绝无害请求(明明很正常的事却说「无法协助」)、或不同主题行为不一致。

DPO 由 Rafailov 等人在 2023 年的论文提出。2024 年快速流行,现在很多实验室默认用 DPO。聪明的洞见:其实不需要独立的 reward model。可以直接用偏好数据,透过 RLHF 数学推导出来的损失函数,直接更新 LLM。

实务上:收集跟 RLHF 一样的偏好配对数据,但不是训练 reward model + RL,而是用一次监督学习风格的更新更新 LLM,提高偏好答案的概率、降低被拒绝答案的概率,加上正则化避免模型偏离太远。

大家为什么换过去:

Llama 3 用 DPO。Mistral 用 DPO。多数开放权重模型用 DPO 或其变体。Anthropic 和 OpenAI 内部用混合技术,没完全披露;两家可能都用 DPO 风格的直接优化加上其他自家方法。

从用户角度这里开始有趣。偏好数据和技术的选择形塑了模型擅长什么:

大量 RLHF 在安全偏好上 → 模型过度小心、拒绝边缘问题、加免责声明。
大量 DPO 在有用性偏好上 → 模型几乎总是尝试回答,有时答错因为被训练成不会说「我不知道」。
偏好数据来自狭窄的标注者群体 → 模型带有那群人的盲点和风格习惯。为什么 2024-2025 年的模型常常有相似「声音」:它们大致用相似的外包标注者池调过。
Constitutional AI / RLAIF(从 AI 反馈强化学习) — Anthropic 的变体,用 AI 评论替代部分人类偏好标注。较便宜但 AI 评论者引入自己的偏见。

IPO(身份偏好优化) — DPO 变体,处理偏好和被拒绝答案非常相似的情况。
KTO(Kahneman-Tversky 优化) — 只用「好 / 坏」标记,不用 A vs B 比较,有时收集起来更便宜。
ORPO(Odds Ratio 偏好优化) — 把 SFT 和偏好学习合并成单一步骤。
GRPO(Group Relative Policy Optimization) — DeepSeek 用在 R1 和 V3 等推理模型上,针对多个采样输出做优化。

对非研究员来说,重点是:「偏好优化」是一族技术,实验室一直在试新的。不同族产出微妙不同的模型个性和能力。

**模型行为是设计选择,不是事实。**Claude 拒绝某个 GPT-5 会回答的事,那是实验室做的偏好数据选择。新模型版本「感觉不一样」时,SFT 和偏好数据可能变了。

**开源等于可调。**你可以用消费级硬件用自己的偏好数据 DPO-tune 一个开放权重模型(像 Llama 3 或 Qwen)。「无审查」或领域特化的模型就是这样做的。axolotl、trl 这类工具让这件事变亲民。

**偏好数据才是真正的护城河。**算力和架构越来越商品化。2026 年 Claude / GPT / Gemini 的差异化大致在「谁有更好的偏好数据、跟用户更好的反馈循环」。

如果你通过 API 用 LLM、没训练自己的,不需要知道 RLHF vs DPO 内部机制就能 ship 产品。你需要的是:察觉到模型的语气、拒绝模式、怪癖都来自这些流程,不是某种不可变的「AI 性格」。如果某个模型对你的场景太谄媚,换模型 — 那可以解决。