RLHF（人类反馈强化学习）

通过人类对模型回答的偏好评分，训练语言模型产生更有用、更安全回应的技术。

RLHF 全名是 Reinforcement Learning from Human Feedback（人类反馈强化学习），是一种训练技术：让人类比较或评分模型的不同回答，再用这些偏好数据微调模型，使其产出更符合人类期待的回应。GPT-3 能变成 ChatGPT 这样的对话助手，关键就是这一步。为什么重要？单靠预训练，模型只是在"预测网络文本的下一个 token"，它并不知道要帮助用户、要拒绝有害请求、要听从指令。RLHF 就是让模型对齐人类意图与安全规范的方法，目前的 ChatGPT、Claude、Gemini 几乎都经过某种形式的 RLHF。流程通常分三步：先用人工示范对话做监督微调；再让标注者比较两个回答"哪个更好"，训练一个"奖励模型"；最后用这个奖励模型当作信号，通过强化学习（常用 PPO）持续调整主模型。打个比方：就像让客人对两道菜打分，再让厨师朝得分高的方向去练。 RLHF 也有缺点——容易产生"谄媚"（迎合用户）、奖励黑客行为，而且收集高质量人工标注成本很高。后来出现的 DPO 直接跳过奖励模型，Anthropic 的 Constitutional AI / RLAIF 则用 AI 反馈替代部分人工标注。延伸阅读：fine-tuning、reward model、PPO、DPO、Constitutional AI、alignment。