VESPOとは？変分定式化でLLM強化学習のポリシー陳腐化に耐える新手法

重要度サンプリングの重みリシェイピングを分布設計問題として捉え直した変分定式化により、ハードクリッピングと長さバイアスを同時に解消する閉形式カーネルを理論的に導出
gbs/mbs=64という極端なポリシー陳腐化条件でも安定した訓練を維持し、GRPOの44.7%に対して平均精度58.5%を達成
密結合モデルとMixture-of-Expertsモデルの双方で一貫した性能改善を示し、GitHubでコードを公開

研究の背景と課題

大規模言語モデル（Large Language Model、LLM）の能力向上において、強化学習による後処理が欠かせない手法となっています。Group Relative Policy Optimization（GRPO）やReinforcement Learning from Human Feedback（RLHF）が広く普及し、数学的推論など高度な能力の獲得に活用されています。

ところが、実際の大規模分散訓練環境では深刻な問題が生じます。複数のGPUで並列処理を行う際、ロールアウト（方策による軌跡生成）と勾配更新が非同期で行われるため、「ポリシー陳腐化（Policy Staleness）」と呼ばれる現象が発生します。これは、データ収集時の方策と学習時の方策がずれてしまう問題であり、陳腐化が深刻になると確率比の推定が不正確になり、訓練の崩壊を招きます。

この問題に対処するために重要度サンプリング（Importance Sampling、IS）が用いられますが、既存手法はいずれも経験的な調整に留まっています。GRPOはトークンレベルのハードクリッピングを採用しており、クリップ境界付近で勾配が急激にゼロになる問題があります。GSPOはシーケンスレベルの正規化を導入しましたが、長さバイアス（長い応答が有利になる偏り）を引き起こします。これらの課題を統一的な理論枠組みで解決したのが、今回紹介するVESPOです。

図1: VESPOの概念図（左）と、gbs/mbs=4（グローバルバッチサイズとミニバッチサイズの比）の条件下でのQwen3-30B-A3B-Baseの訓練報酬曲線（右）

VESPOの提案手法

VESPOの核心は、重みリシェイピングを「どの提案分布Qを採用すべきか」という分布設計問題として捉え直した点にあります。従来手法が経験的に選んでいた変換関数φ(W)は、それぞれ暗黙的な提案分布を定義しているに過ぎません。VESPOはこの関係を明示化し、最適なφを変分法で導出します。

具体的には、行動方策μとの近さ、目標方策πへの偏りの低減、分散制約の3条件を同時に満たす最適化問題を設定します。ラグランジアン法によって解を求めると、閉形式の再形成カーネルとして次の関数が導かれます。

φ(W) = W^c₁ · exp(c₂(1 − W))

この関数は、確率比Wが1（オンポリシー）のときに単位重みを受け取るよう設計されています。Wが大きいほど指数項による抑制が働き、過度な外れ値の影響を滑らかに制御します。ハードクリッピングのように勾配が突然ゼロになることなく、境界付近でも連続的な学習信号が維持されるのが大きな特徴です。

図2: サロゲート目標f(w)（上段）と勾配スケーリング係数φ(w)（下段）の比較。ハードクリッピングは境界で突然ゼロになるのに対し、VESPOはw=1付近でピークを持ち滑らかに減衰する

また、VESPOは長さ正規化を意図的に採用しません。長さでスケールを変えると重要度推定量に系統的なバイアスが生じることを理論的に示し、アブレーション実験でも正規化を加えると訓練が崩壊することが確認されています。正と負のアドバンテージに対して非対称なハイパーパラメータを使う設計も、それぞれの抑制強度の違いを適切に反映するためです。正のアドバンテージには(c₁,c₂)=(2,3)、負には(3,2)を使うことで、対称設定より高い性能が得られています。

実験結果

実験はLlama-3.2-3B、Qwen3-8B、Qwen3-30B-A3B（MoE構造）の3モデルで行われました。AIME 2024/2025、AMC 2023、MATH-500などの数学的推論ベンチマークで評価し、32枚のNVIDIA H20 GPUを用いた分散環境での検証となります。

標準的な条件（gbs/mbs=8）では、VESPOはすべてのモデルで最高または同等の精度を達成しました。MoEモデルのQwen3-30B-A3Bでは57.2%と、次点のGSPOの52.0%に対して5ポイント以上の改善が見られます。密結合モデルのLlama-3.2-3Bでも26.8%と、GSPO比で1.7ポイントの向上を示しています。

図3: 様々な陳腐化レベル（N=4〜64）における各手法の訓練報酬の推移。VESPOはすべての条件で安定した曲線を維持する

陳腐化耐性の比較では、VESPOの優位性がより明確になります。N=64（gbs/mbs=64）という極端な条件でも、VESPOは平均58.5%の精度を維持しました。同条件でGRPOは44.7%、GSPOは45.8%まで低下し、SAPOは18.4%まで崩壊しました。訓練ダイナミクスを細かく見ると、VESPOだけがエントロピー・KL発散・損失の各指標で安定した挙動を示しています。GRPOは低い陳腐化比でエントロピーが急速に低下して探索不足に陥り、SAPOは応答長が3,000トークン程度まで膨張した後に崩壊するという特徴的な失敗パターンが観察されました。

図4: 陳腐化レベル別の詳細な訓練ダイナミクス（各行が異なるN値、列は訓練報酬・AIME精度・応答長・KL発散・エントロピー・PG損失）。VESPOは全条件で安定を保つ

完全非同期訓練環境でも、VESPOは最も高い報酬と精度を達成しています。MoEモデル特有の「トレーニング・推論不一致」問題に対しては、専用の修正を加えなくてもVESPO単体で安定訓練が可能です。さらに、既存の修正手法R2と組み合わせることで最高性能を実現します。強化学習とLLMの組み合わせについては、Embed-RL：強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法も参考になります。

まとめと今後の展望

VESPOは、既存手法が経験的に設計していた重みリシェイピングを変分理論から導出することで、オフポリシーLLM訓練の安定性を根本から改善しました。gbs/mbs=64という条件でも機能する頑健さは、大規模な非同期分散訓練環境に直接応用できます。

MoEモデルでの効果が密結合モデルより顕著だった点も注目に値します。MoEアーキテクチャではルーティングの非決定性によるさらなる分布ずれが発生しますが、VESPOの滑らかな重み抑制がこれを自然に吸収しています。最近の高性能モデルにMoE構造が多く採用されていることを考えると、実用上の恩恵は大きいといえます。

課題としては、非対称ハイパーパラメータの最適値がタスクやモデルによって変わる可能性があるため、汎用的な設定の確立が今後の研究課題として残ります。コードはGitHubで公開されており、再現性と発展研究への貢献を意識した研究姿勢も評価されるところです。