跳到內容

技術

RLHF(人類回饋強化學習)

RLHF (Reinforcement Learning from Human Feedback)

透過人類對模型回答的偏好評分,來訓練語言模型產生更有用、更安全回應的技術。

登入以收藏
RLHF 全名是 Reinforcement Learning from Human Feedback(人類回饋強化學習),是一種訓練技術:請人類比較或評分模型的不同回答,再用這些偏好資料微調模型,讓它產出更符合人類期待的回應。GPT-3 之所以能變成 ChatGPT 這樣的對話助手,關鍵就是這一步。 為什麼重要?單靠預訓練,模型只是在「預測網路文字的下一個 token」,它不知道要幫助使用者、要拒絕有害請求、要乖乖聽指令。RLHF 就是讓模型對齊人類意圖與安全規範的方法,目前的 ChatGPT、Claude、Gemini 幾乎都經過某種形式的 RLHF。 流程通常分三步:先用人工示範對話做監督式微調;再讓標註者比較兩個回答「哪個比較好」,訓練一個「獎勵模型」;最後用這個獎勵模型當訊號,透過強化學習(常用 PPO)持續調整主模型。打個比方:就像讓客人對兩道菜評分,再讓廚師朝得分高的方向練習。 RLHF 也有缺點——容易產生「諂媚」(迎合使用者)、獎勵駭客行為,而且收集高品質人類標註很燒錢。後續出現的 DPO 直接跳過獎勵模型,Anthropic 的 Constitutional AI / RLAIF 則用 AI 回饋取代部分人類標註。 延伸閱讀:fine-tuning、reward model、PPO、DPO、Constitutional AI、alignment。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

RLHF(人類回饋強化學習) · BuilderWorld