跳到内容

技术

RLHF(人类反馈强化学习)

RLHF (Reinforcement Learning from Human Feedback)

通过人类对模型回答的偏好评分,训练语言模型产生更有用、更安全回应的技术。

登入以收藏
RLHF 全名是 Reinforcement Learning from Human Feedback(人类反馈强化学习),是一种训练技术:让人类比较或评分模型的不同回答,再用这些偏好数据微调模型,使其产出更符合人类期待的回应。GPT-3 能变成 ChatGPT 这样的对话助手,关键就是这一步。 为什么重要?单靠预训练,模型只是在"预测网络文本的下一个 token",它并不知道要帮助用户、要拒绝有害请求、要听从指令。RLHF 就是让模型对齐人类意图与安全规范的方法,目前的 ChatGPT、Claude、Gemini 几乎都经过某种形式的 RLHF。 流程通常分三步:先用人工示范对话做监督微调;再让标注者比较两个回答"哪个更好",训练一个"奖励模型";最后用这个奖励模型当作信号,通过强化学习(常用 PPO)持续调整主模型。打个比方:就像让客人对两道菜打分,再让厨师朝得分高的方向去练。 RLHF 也有缺点——容易产生"谄媚"(迎合用户)、奖励黑客行为,而且收集高质量人工标注成本很高。后来出现的 DPO 直接跳过奖励模型,Anthropic 的 Constitutional AI / RLAIF 则用 AI 反馈替代部分人工标注。 延伸阅读:fine-tuning、reward model、PPO、DPO、Constitutional AI、alignment。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

RLHF(人类反馈强化学习) · BuilderWorld