SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

多ターンエージェント訓練で生じるOPSDの不安定性を、シグモイドゲートによる選択的自己蒸留で根本的に解決
GRPOベースライン比でALFWorld+9.4%、Search-QA+7.0%、WebShop-Acc+10.2%の一貫した性能向上を実現
Qwen2.5/Qwen3ファミリーで検証済みで再現性が高く、次世代エージェント訓練パラダイムとして実用的価値が高い

研究の背景

大規模言語モデル（LLM）をエージェントとして活用する研究が急速に進むなか、複数ターンにわたるタスク実行を学習させる「多ターン強化学習」が注目を集めています。その中心的な手法として、グループ相対方策最適化（Group Relative Policy Optimization、GRPO）が広く普及しつつあります。GRPOはロールアウト（試行）をグループ化して相対的な報酬を用いることで安定した学習を実現しますが、長いタスク系列では報酬信号が粗くなり、細かい行動指針を与えにくいという限界があります。

この粗い報酬信号を補う手法として、オンポリシー自己蒸留（On-Policy Self-Distillation、OPSD）が提案されていました。OPSDは、過去の自分自身の出力を教師として活用し、学生モデルへトークンレベルの細かい監督を提供します。しかし、GRPOとOPSDを単純に組み合わせると、多ターン環境では深刻な不安定性が生じることが本論文で明らかにされました。

問題の本質

GRPOとOPSDを素朴に組み合わせた場合（GRPO+OPSD）、2種類の不安定性が発現します。1つ目は「多ターンOPSD不安定性」です。エージェントが複数ターンを経るにつれて、学生モデルの行動が教師モデルの想定した軌跡から乖離していきます。その結果、KL（カルバック・ライブラー）ダイバージェンスが急増して学習が崩壊します。

2つ目は「RLSD形式の不安定性」です。GRPOのRL損失とOPSD損失が互いに競合し、後半ターンでは教師が否定的なフィードバックを与えてしまう場面が生じます。教師モデルは独立して優れたモデルではなく、訓練時のみ過去の文脈にアクセスできる同一モデルであるため、スキルの検索に失敗した際に誤った否定的信号を発することがあります。

図2: 多ターンOPSDの不安定性（左）とRLSD形式の不安定性（右）。素朴な組み合わせでは訓練中にKLダイバージェンスが急増し、性能が崩壊する

SDARの提案手法

Self-Distilled Agentic Reinforcement Learning（SDAR）は、不安定性問題を「選択的自己蒸留」によって解決します。核心となるのは、シグモイドゲートを用いたトークンレベルの信号フィルタリングです。各トークンについて教師・学生のログ確率差（Δ_t）を計算し、Gate(t) = σ(β × Δ_t) によって蒸留の重みを動的に制御します。

教師が学生より確信度の高いトークン（Δ_t > 0）ではゲートが開いて蒸留が強化され、教師が低い確信度を示すトークン（Δ_t < 0）ではゲートが閉じて誤った負の信号をブロックします。この設計により、勾配の有界性・ゲートのdetach処理・動的カリキュラムの3つの安定化特性が実現されます。GRPOのRL損失は主要な最適化バックボーンとして維持され、OPSDはその補助的な目的として組み込まれます。

図4: SDARフレームワークの全体構成。トークンレベルのOPSD損失とベリファイア駆動のRL損失を組み合わせて多ターンエージェントを訓練する

実験結果

SDARはALFWorld（家庭内タスク遂行）、Search-QA（検索付きQA）、WebShop（オンラインショッピング）の3ベンチマークで評価されました。使用モデルはQwen2.5-3B、Qwen2.5-7B、Qwen3-1.7Bの3種類です。GRPOベースラインと比較した主な結果は以下のとおりです。

ALFWorld（家庭内タスク遂行）: +9.4%の改善
Search-QA（検索付き質問応答）: +7.0%の改善
WebShop-Acc（ECサイト商品選択精度）: +10.2%の改善

図1: GRPO+OPSDとSDARの比較（左）と各ベンチマークにおける総合性能（右）。SDARが全タスク・全モデルスケールで安定した改善を達成している

素朴なGRPO+OPSDがQwen3-1.7Bで深刻な性能劣化を示すのに対し、SDARは全モデルスケールで一貫した改善を達成しています。スキル検索をランダム化した際でも+1.9%の改善が得られており、ゲーティング機構が低品質な信号を適切にフィルタリングしていることを裏付けます。強化学習を活用したSU-01の高性能推論モデル訓練でも蒸留との統合が有効とされており、SDARはその知見を多ターンエージェント環境へ応用した成果とも言えます。

アブレーション研究

ゲーティング戦略の比較では、教師・学生ギャップを直接用いる「ギャップゲーティング」が最も優れた結果を示しました。エントロピーに基づくゲーティングや両者の論理和を用いる手法と比較して、ギャップゲーティングは選択性が高く、有用な信号とノイズを効果的に分離します。ハイパーパラメータβについてはβ=5.0が最適で、値が小さすぎると全トークンを均一に蒸留してしまい、値が大きすぎると二値化に近くなって勾配情報が失われます。

まとめと今後の展望

SDARは、多ターンエージェント訓練における自己蒸留の不安定性という実践的な問題を、理論的に裏付けられたシグモイドゲーティングで解決した手法です。GRPOを主軸としつつOPSDを補助目的として組み込む設計は、既存のRLパイプラインへの導入が容易で、Qwen2.5/Qwen3ファミリーでの再現性も確認されています。

課題としては、教師モデルが訓練時のみ全文脈にアクセスできる点が推論時との乖離を生む可能性があり、より長い多ターンタスクや異なるモデルファミリーへの適用については今後の検証が必要です。GRPOの普及後における多ターンエージェント訓練の次世代パラダイムとして、実用的価値の高い研究と言えます。