父级笔记: 算法模型演示

DPO 直接偏好优化

🧪 DPO — 直接偏好优化

💡 直接优化偏好: 让更喜欢回答的概率↑，不喜欢的↓ · 无需奖励模型

AI编程手册
Docker应用手册
Linux系统手册
Web应用手册
- Squoosh 图片压缩
Scoop应用手册
Windows应用手册
Windows系统手册
硬件手册
业务手册