DPO 直接偏好优化

🧪 DPO — 直接偏好优化

💡 直接优化偏好: 让更喜欢回答的概率↑,不喜欢的↓ · 无需奖励模型