RLHF（人類回饋強化學習）

透過人類對模型回答的偏好評分，來訓練語言模型產生更有用、更安全回應的技術。

RLHF 全名是 Reinforcement Learning from Human Feedback（人類回饋強化學習），是一種訓練技術：請人類比較或評分模型的不同回答，再用這些偏好資料微調模型，讓它產出更符合人類期待的回應。GPT-3 之所以能變成 ChatGPT 這樣的對話助手，關鍵就是這一步。為什麼重要？單靠預訓練，模型只是在「預測網路文字的下一個 token」，它不知道要幫助使用者、要拒絕有害請求、要乖乖聽指令。RLHF 就是讓模型對齊人類意圖與安全規範的方法，目前的 ChatGPT、Claude、Gemini 幾乎都經過某種形式的 RLHF。流程通常分三步：先用人工示範對話做監督式微調；再讓標註者比較兩個回答「哪個比較好」，訓練一個「獎勵模型」；最後用這個獎勵模型當訊號，透過強化學習（常用 PPO）持續調整主模型。打個比方：就像讓客人對兩道菜評分，再讓廚師朝得分高的方向練習。 RLHF 也有缺點——容易產生「諂媚」（迎合使用者）、獎勵駭客行為，而且收集高品質人類標註很燒錢。後續出現的 DPO 直接跳過獎勵模型，Anthropic 的 Constitutional AI / RLAIF 則用 AI 回饋取代部分人類標註。延伸閱讀：fine-tuning、reward model、PPO、DPO、Constitutional AI、alignment。