技術
DPO(直接偏好最佳化)
DPO (Direct Preference Optimization)
一種對齊技術,直接用人類偏好資料微調模型,不需訓練獎勵模型或跑 RL,是 RLHF 的簡化替代方案。
技術
DPO (Direct Preference Optimization)
一種對齊技術,直接用人類偏好資料微調模型,不需訓練獎勵模型或跑 RL,是 RLHF 的簡化替代方案。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more