DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

RLVRでは全トークンに報酬を均等配分するため、書式トークンなど推論に無関係な部分も学習シグナルに混入する問題があった
DelTAはポリシー勾配が線形判別器として機能するという理論的洞察から各トークンの貢献度を推定し、学習シグナルを精密に配分する
数学ベンチマーク7種でQwen3-8BとQwen3-14Bがそれぞれ平均3.26点・2.62点向上し、コード生成にも汎化する

研究の背景

Large Language Model（LLM）の能力を引き上げる手法として、検証可能な報酬からの強化学習（RLVR: Reinforcement Learning from Verifiable Rewards）が広く使われています。数学の解答やコードの実行結果のように正誤が明確に判定できる課題に対して、正解報酬を使ってモデルを訓練するアプローチです。

しかしRLVRには根本的な課題がありました。モデルが生成する応答は多数のトークンから構成されますが、従来の手法では応答全体の結果（正解か不正解か）から得た報酬を、すべてのトークンに均等に割り当てていました。

「では、」「なお、」といった書式的なトークンや、論理の筋道に直接関係しない定型表現は、正解応答でも不正解応答でも同様に頻出します。それらに同等の学習シグナルを与えると、本当に推論の質を決定するトークンへの学習が薄まってしまうのです。

ポリシー勾配の判別器ビュー

DelTAの出発点は、ポリシー勾配更新を新しい視点で捉え直すことです。論文では、RLVRにおけるポリシー勾配の更新が「トークン勾配ベクトル上の線形判別器」として機能するという洞察を示しています。

従来のRLVRでは、正の利得（Advantage）を持つ応答と負の利得を持つ応答のトークン勾配を重み付き平均してセントロイド（重心点）を構築します。しかしこの方式では、両側に共通して現れる書式トークンなどがセントロイドを支配してしまい、正解と不正解を区別する本来の判別能力が弱まります。

そこでDelTAは「そのトークンの勾配方向が、自分の側（正解側または不正解側）に対してどれだけ特有であるか」を定量化します。両側のセントロイドとの距離の差から各トークンの貢献度スコアを求め、より特徴的なトークンには高い係数を、両側に共通するトークンには低い係数を割り当てることで、対照的な学習方向を強化します。

図1: DelTAの全体像。正・負の利得を持つトークンの勾配集合を対比してトークン係数を推定し、応答レベルのRLVR目的関数を再重み付けする

DelTAの具体的な仕組み

DelTAのアルゴリズムは次の手順で動作します。まず正の利得群と負の利得群のトークン勾配から、それぞれの初期セントロイドを構築します。次に各トークンについて「正セントロイドとの距離」と「負セントロイドとの距離」の差（距離マージン）を計算し、このマージンをスコアに変換します。

このプロセスをK回繰り返すことでセントロイドを精緻化し、最終的なスコアを係数λ（ラムダ）にマッピングします。係数の値域は[0.8, 1.2]に収まるよう設計されており、極端な重み付けを避けながら学習シグナルを適切に調整します。この係数を各トークンの損失項に掛け合わせるだけで、既存のRLVRフレームワーク（DAPO）に組み込めます。

計算コストは既存手法と比べてわずかな追加に留まります。全パラメータの勾配を使う代わりに、一部のレイヤーに限定した勾配プロキシを用いることで実用的な速度を確保しています。

実験結果

DelTAは7つの数学ベンチマーク（AIME24/25/26、HMMTの各種設定、Brumo25）で評価されました。ベースラインにはGRPO、DAPO、フォーキングトークン手法、FIPO、SAPOなど主要なRLVR手法が選ばれています。

Qwen3-8B-Baseでは平均スコアが28.40となり、最強ベースライン25.14を3.26ポイント上回りました。Qwen3-14B-Baseでも39.91対37.29と2.62ポイントの改善を達成し、すべての個別ベンチマークで一貫した向上が見られます。

数学以外でもコード生成タスクで改善が確認されました。OLMo3-7B-Baseという異なるアーキテクチャのモデルへの適用でも有効性が示されており、特定のモデルに依存しない汎用性を持っています。

図2: DelTAとDAPOの訓練ダイナミクスの比較。DelTAは報酬が高く、応答長が維持され、エントロピーが低く抑えられている

アブレーション分析の結果

論文では手法の各要素が本当に機能しているかを詳細に検証しています。RELEXのようなRLVR効率化手法と同様、設計の妥当性を細かく確認しているのがこの研究の強みです。

「自分の側だけとの比較（片側のみ）」という変形版では、スコアが23.27から17.94に大幅低下しました。正側と負側の両方を対比することが不可欠であることを示しています。「係数が高いトークン上位50%のみで学習」した場合は標準DAPOを上回りましたが、「係数が低い下位50%のみ」では性能が崩壊しました。これはDelTAが実際に意味のある判別シグナルを捉えていることの証拠です。