技术
DPO(直接偏好优化)
DPO (Direct Preference Optimization)
一种对齐技术,直接用人类偏好数据微调模型,不需训练奖励模型或跑 RL,是 RLHF 的简化替代方案。
技术
DPO (Direct Preference Optimization)
一种对齐技术,直接用人类偏好数据微调模型,不需训练奖励模型或跑 RL,是 RLHF 的简化替代方案。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more