RLHF vs DPO:現代對齊技術的差別

GPT-3 在 2020 年推出時,你問它「怎麼烤麵包」,它會回你五個你應該再問的問題,因為訓練資料就長這樣 — 網路文字裡一個問題常常引出另一個問題。從「網路自動補完」變成「會回答的好用助理」這個轉變就是對齊。RLHF 和 DPO 是實驗室做這件事的兩大主流技術。

這篇對沒在訓模型、但想理解為什麼某些模型很諂媚、為什麼有些拒絕無害問題、為什麼模型在不同版本間行為會變的人有用。數學很複雜但概念不會。

這些技術在 pipeline 哪裡

現代前緣 LLM 大致經過三個階段:

RLHF 和 DPO 都是做第 3 步的方法。

RLHF 是最早的技術。OpenAI 在 2022 年的 InstructGPT 用了,接著 ChatGPT,然後大家都抄。分兩個子步驟:

**步驟 A:訓練 reward model。**給人類看模型輸出的配對(同一個提示詞下「答案 A」 vs「答案 B」),問哪個比較好。收集數萬個這種比較。訓練一個獨立的神經網路 — reward model — 預測人類會偏好哪個答案。

步驟 B:用強化學習更新 LLM,讓它產出的答案在 reward model 那邊拿高分。具體上用一個叫 PPO(Proximal Policy Optimization)的演算法,微調 LLM 的權重以最大化 reward,同時不能離原本的 SFT 模型太遠。

整個流程很細膩。reward model 可以被反制(LLM 找到拿高分但不好的對抗性輸出)。訓練不穩定 — reward 壓力太大,模型會崩成最大化 reward 的重複胡言。記憶體裡同時要三個模型副本(訓練中的 LLM、凍結的參考、reward model)。算力很貴。

RLHF 做得好的時候,模型會感覺精緻、有用。出問題時,你會得到諂媚(「好棒的問題!」)、拒絕無害請求(明明很正常的事卻說「無法協助」)、或不同主題行為不一致。

DPO 由 Rafailov 等人在 2023 年的論文提出。2024 年快速流行,現在很多實驗室預設用 DPO。聰明的洞見:其實不需要獨立的 reward model。可以直接用偏好資料,透過 RLHF 數學推導出來的損失函數,直接更新 LLM。

實務上:收集跟 RLHF 一樣的偏好配對資料,但不是訓練 reward model + RL,而是用一次監督式學習風格的更新更新 LLM,提高偏好答案的機率、降低被拒絕答案的機率,加上正則化避免模型偏離太遠。

大家為什麼換過去:

Llama 3 用 DPO。Mistral 用 DPO。多數開放權重模型用 DPO 或其變體。Anthropic 和 OpenAI 內部用混合技術,沒完全揭露;兩家可能都用 DPO 風格的直接優化加上其他自家方法。

從使用者角度這裡開始有趣。偏好資料和技術的選擇形塑了模型擅長什麼:

大量 RLHF 在安全偏好上 → 模型過度小心、拒絕邊緣問題、加免責聲明。
大量 DPO 在有用性偏好上 → 模型幾乎總是嘗試回答,有時答錯因為被訓練成不會說「我不知道」。
偏好資料來自狹窄的標註者群體 → 模型帶有那群人的盲點和風格習慣。為什麼 2024-2025 年的模型常常有相似「聲音」:它們大致用相似的外包標註者池調過。
Constitutional AI / RLAIF(從 AI 回饋強化學習) — Anthropic 的變體,用 AI 評論替代部分人類偏好標註。較便宜但 AI 評論者引入自己的偏見。

IPO(身分偏好優化) — DPO 變體,處理偏好和被拒絕答案非常相似的情況。
KTO(Kahneman-Tversky 優化) — 只用「好 / 壞」標記,不用 A vs B 比較,有時收集起來更便宜。
ORPO(Odds Ratio 偏好優化) — 把 SFT 和偏好學習合併成單一步驟。
GRPO(Group Relative Policy Optimization) — DeepSeek 用在 R1 和 V3 等推理模型上,針對多個取樣輸出做優化。

對非研究員來說,重點是:「偏好優化」是一族技術,實驗室一直在試新的。不同族產出微妙不同的模型個性和能力。

**模型行為是設計選擇,不是事實。**Claude 拒絕某個 GPT-5 會回答的事,那是實驗室做的偏好資料選擇。新模型版本「感覺不一樣」時,SFT 和偏好資料可能變了。

**開源等於可調。**你可以用消費級硬體用自己的偏好資料 DPO-tune 一個開放權重模型(像 Llama 3 或 Qwen)。「無審查」或領域特化的模型就是這樣做的。axolotl、trl 這類工具讓這件事變親民。

**偏好資料才是真正的護城河。**算力和架構越來越商品化。2026 年 Claude / GPT / Gemini 的差異化大致在「誰有更好的偏好資料、跟使用者更好的回饋迴路」。

如果你透過 API 用 LLM、沒訓練自己的,不需要知道 RLHF vs DPO 內部機制就能 ship 產品。你需要的是:覺察到模型的語氣、拒絕模式、怪癖都來自這些流程,不是某種不可變的「AI 性格」。如果某個模型對你的場景太諂媚,換模型 — 那可以解決。