策略梯度 PG

🧪 策略梯度 — Policy Gradient

💡 直接优化策略 π(a|s) · 高回报动作概率↑,低回报↓