父级笔记: 算法模型演示

RLHF 人类反馈

🧪 RLHF 人类反馈

💡 人类偏好→奖励模型→PPO微调LLM

AI编程手册
Docker应用手册
Linux系统手册
Web应用手册
- Squoosh 图片压缩
Scoop应用手册
Windows应用手册
Windows系统手册
硬件手册
业务手册