強化学習 LLM性能向上手法「REINFORCE++」がPPOを超える效果! REINFORCE++は、トークンレベルのKL正則化と簡素な方策更新を用いて、LLMの性能を向上させる手法です。PPOに匹敵する一般化性能とコスト効率を実験で示しています。 2025.01.29 強化学習論文解説