RLHF 人类反馈

🧪 RLHF — 人类反馈强化学习

💡 SFT→奖励模型→PPO 强化学习 · 对齐人类偏好