GPT-3 在 2020 年推出時,你問它「怎麼烤麵包」,它會回你五個你應該再問的問題,因為訓練資料就長這樣 — 網路文字裡一個問題常常引出另一個問題。從「網路自動補完」變成「會回答的好用助理」這個轉變就是對齊。RLHF 和 DPO 是實驗室做這件事的兩大主流技術。
這篇對沒在訓模型、但想理解為什麼某些模型很諂媚、為什麼有些拒絕無害問題、為什麼模型在不同版本間行為會變的人有用。數學很複雜但概念不會。
這些技術在 pipeline 哪裡
現代前緣 LLM 大致經過三個階段:
- 預訓練 — 在數兆個網路 token 上預測下一個 token。結果:模型知道事實和語言結構,但行為不像助理。
- 監督式微調(SFT) — 給它 1 萬到 10 萬個高品質「問題 → 理想答案」配對(人類寫的)。結果:現在會像助理一樣回答,但還不一致、容易跑偏。
- 偏好優化 — RLHF 或 DPO。給它一對答案,告訴它人類偏好哪個。結果:模型答案能持續符合人類偏好(有用、無害、誠實、格式好等)。
RLHF 和 DPO 都是做第 3 步的方法。
RLHF(從人類回饋強化學習)
RLHF 是最早的技術。OpenAI 在 2022 年的 InstructGPT 用了,接著 ChatGPT,然後大家都抄。分兩個子步驟:
**步驟 A:訓練 reward model。**給人類看模型輸出的配對(同一個提示詞下「答案 A」 vs「答案 B」),問哪個比較好。收集數萬個這種比較。訓練一個獨立的神經網路 — reward model — 預測人類會偏好哪個答案。
步驟 B:用強化學習更新 LLM,讓它產出的答案在 reward model 那邊拿高分。具體上用一個叫 PPO(Proximal Policy Optimization)的演算法,微調 LLM 的權重以最大化 reward,同時不能離原本的 SFT 模型太遠。
整個流程很細膩。reward model 可以被反制(LLM 找到拿高分但不好的對抗性輸出)。訓練不穩定 — reward 壓力太大,模型會崩成最大化 reward 的重複胡言。記憶體裡同時要三個模型副本(訓練中的 LLM、凍結的參考、reward model)。算力很貴。
RLHF 做得好的時候,模型會感覺精緻、有用。出問題時,你會得到諂媚(「好棒的問題!」)、拒絕無害請求(明明很正常的事卻說「無法協助」)、或不同主題行為不一致。
DPO(直接偏好優化)
DPO 由 Rafailov 等人在 2023 年的論文提出。2024 年快速流行,現在很多實驗室預設用 DPO。聰明的洞見:其實不需要獨立的 reward model。可以直接用偏好資料,透過 RLHF 數學推導出來的損失函數,直接更新 LLM。
實務上:收集跟 RLHF 一樣的偏好配對資料,但不是訓練 reward model + RL,而是用一次監督式學習風格的更新更新 LLM,提高偏好答案的機率、降低被拒絕答案的機率,加上正則化避免模型偏離太遠。
大家為什麼換過去:
- **更簡單。**一個訓練步驟,沒有 reward model、沒有 PPO。維護的程式碼少很多。
- **更穩定。**RLHF 那種病態的 reward hacking 失敗在 DPO 大致不會發生。
- **更便宜。**達到類似品質,大約少 2-3 倍算力。
- **更容易迭代。**可以快速跑多種變體。
Llama 3 用 DPO。Mistral 用 DPO。多數開放權重模型用 DPO 或其變體。Anthropic 和 OpenAI 內部用混合技術,沒完全揭露;兩家可能都用 DPO 風格的直接優化加上其他自家方法。
在最終模型上實際感覺如何
從使用者角度這裡開始有趣。偏好資料和技術的選擇形塑了模型擅長什麼:
- 大量 RLHF 在安全偏好上 → 模型過度小心、拒絕邊緣問題、加免責聲明。
- 大量 DPO 在有用性偏好上 → 模型幾乎總是嘗試回答,有時答錯因為被訓練成不會說「我不知道」。
- 偏好資料來自狹窄的標註者群體 → 模型帶有那群人的盲點和風格習慣。為什麼 2024-2025 年的模型常常有相似「聲音」:它們大致用相似的外包標註者池調過。
- Constitutional AI / RLAIF(從 AI 回饋強化學習) — Anthropic 的變體,用 AI 評論替代部分人類偏好標註。較便宜但 AI 評論者引入自己的偏見。
你會看到的較新變體
- IPO(身分偏好優化) — DPO 變體,處理偏好和被拒絕答案非常相似的情況。
- KTO(Kahneman-Tversky 優化) — 只用「好 / 壞」標記,不用 A vs B 比較,有時收集起來更便宜。
- ORPO(Odds Ratio 偏好優化) — 把 SFT 和偏好學習合併成單一步驟。
- GRPO(Group Relative Policy Optimization) — DeepSeek 用在 R1 和 V3 等推理模型上,針對多個取樣輸出做優化。
對非研究員來說,重點是:「偏好優化」是一族技術,實驗室一直在試新的。不同族產出微妙不同的模型個性和能力。
這些對沒在訓練模型的人意味什麼
**模型行為是設計選擇,不是事實。**Claude 拒絕某個 GPT-5 會回答的事,那是實驗室做的偏好資料選擇。新模型版本「感覺不一樣」時,SFT 和偏好資料可能變了。
**開源等於可調。**你可以用消費級硬體用自己的偏好資料 DPO-tune 一個開放權重模型(像 Llama 3 或 Qwen)。「無審查」或領域特化的模型就是這樣做的。axolotl、trl 這類工具讓這件事變親民。
**偏好資料才是真正的護城河。**算力和架構越來越商品化。2026 年 Claude / GPT / Gemini 的差異化大致在「誰有更好的偏好資料、跟使用者更好的回饋迴路」。
什麼時候不用在意
如果你透過 API 用 LLM、沒訓練自己的,不需要知道 RLHF vs DPO 內部機制就能 ship 產品。你需要的是:覺察到模型的語氣、拒絕模式、怪癖都來自這些流程,不是某種不可變的「AI 性格」。如果某個模型對你的場景太諂媚,換模型 — 那可以解決。
下一步
- AI 對齊解釋 — 「對齊」是什麼意思、實驗室為什麼吵
- 微調 vs 提示工程 — 哪些問題用調模型解、哪些用調提示詞解
- LoRA vs 微調 vs RAG — DPO 風格的調整怎麼放在客製化模型行為的整體景觀裡