- RLVRによるLLMのパラメータ更新はランク1で大部分が近似でき、その係数が訓練ステップとほぼ線形に増加するという実証的知見
- Qwen系3モデルで全学習ステップの15〜20%のみを観測し、線形外挿によってフルRLVR訓練と同等以上の性能を達成
- 追加学習は不要で既存RLVRチェックポイントに後付け適用でき、訓練コストを最大85%削減しながら同等以上の性能を維持
研究の背景と課題
大規模言語モデル(LLM)の数学的推論能力を向上させる手法として、RLVR(Reinforcement Learning from Verifiable Rewards、検証可能な報酬を使った強化学習)が注目されています。数学の正解・不正解のように客観的に判定できる報酬を使ってモデルを強化学習で訓練するこのアプローチは、DeepSeekやQwenシリーズなどで実証されてきました。
ただしRLVRは計算コストが大きく、何百ステップもの更新が必要です。「途中で早期に打ち切れれば」と思っても、どのステップで性能が収束するかは実行してみるまでわかりません。本論文が取り組む問いは、「RLVRの学習過程に規則的な構造が潜んでいれば、少ない観測から先のチェックポイントを予測できるのではないか」というものです。
ランク1軌跡という核心的発見
研究チームはまず、RLVRによるパラメータ変化の構造を詳しく分析しました。各重み行列について初期値からの差分をまとめた「軌跡行列」に特異値分解(SVD、行列を構成成分に分解する数学的手法)を適用したところ、驚くべき結果が得られました。
パラメータ変化の80%以上が第1成分(ランク1成分)だけで説明できるという事実です。つまり何十億個ものパラメータが一斉に変化しているように見えても、その本質的な変化はほぼ1つの方向に集中しています。図1が示すように、ランク1で再構成したチェックポイントは、Qwen系3モデルすべてでフルRLVR訓練の性能をほぼ維持しています。

さらに重要なのは、このランク1成分のスカラー係数が訓練ステップとほぼ線形に増加するという発見です。代表的なモジュールの係数推移を確認すると、線形フィットの決定係数R²が0.98以上という高い精度で近似できます。第1成分が全分散の81.4%を占め、残りの4成分を合わせても18.6%しかないという顕著な集中度が確認されています。高次元のパラメータ変化が実質的に「1つの方向への線形な移動」として記述できるという、意外なほどの単純さが明らかになりました。
RELEXの仕組み
この2つの発見を組み合わせて提案されたのがRELEX(REinforcement Learning EXtrapolation)です。処理は3段階で構成されており、追加の学習コストは発生しません。

最初のステップでは、序盤のチェックポイントから軌跡行列を構築し、切断SVDを適用してパラメータ変化の「主方向」となるベクトルv₁を抽出します。次に、各チェックポイントの変化量をv₁に射影してスカラー係数の時系列を求め、最小二乗法で線形関数を当てはめて目標ステップまで外挿します。最後に、初期重みに「外挿された係数×主方向v₁」を加算することで、将来のチェックポイントの重みを再構築します。
設計上の重要なポイントとして、SVD射影が「ノイズ除去フィルタ」として機能する点があります。確率的最適化に由来するランダムなノイズを除去し、タスクに関連する変化だけを抽出するため、外挿先でも精度が安定して保たれます。多項式フィッティングなど高次の近似は長期外挿で破綻する(ステップ200で17.8%まで劣化)ことも実験で確認されており、線形という単純な仮定が外挿の安定性に直結しています。
実験結果
RELEXはQwen2.5-Math-1.5B、Qwen3-4B-Base、Qwen3-8B-Baseの3モデルで評価されました。GRPOという強化学習アルゴリズムを使った500ステップのRLVR訓練が比較基準です。MATHのほかAIME 2025/2026、HMMT 2025、AMC 2023などドメイン外の難問ベンチマークも含む5種類のテストで性能を測定しています。

Qwen2.5-Math-1.5Bでは、全500ステップの15%にあたる125ステップの観測からRELEXを適用した結果、MATHスコアが71.6%となり、フルRLVR(71.5%)をわずかに上回りました。既存の外挿手法であるExPO(27.2%)やWeight Extrapolation(28.3%)を平均スコアで大きく凌駕し、ドメイン外の5ベンチマーク中4つで優位な結果を示しています。Qwen3-4B-Baseでも同様に15%の観測でMATH 85.6%(フルRLVR 85.5%と同等)を達成。最大モデルのQwen3-8B-Baseでは20%の観測でMATH 87.4%(フルRLVR 88.5%、差1.1%ポイント)という結果でした。
長期外挿の安定性実験では、観測ウィンドウの8〜16倍先のステップでも性能が維持されることが確認されています。例えばQwen2.5-Math-1.5Bでは125ステップ観測から1000ステップ先を外挿しても71.6%の精度が保たれました。観測範囲を大きく超えた外挿でも精度を維持できる点は、HRM-Textのような低コスト訓練フレームワークとは異なる切り口で「少ない資源で高性能を得る」という課題に応えるものです。
まとめと今後の展望
RELEXは、RLVRによるLLMのパラメータ更新がほぼ1次元の線形軌跡に集約されるという理論的に新しい発見を実用的な手法へと昇華させました。追加学習が不要で既存のRLVRパイプラインにそのまま組み込める実用性の高さも、採用ハードルを低く保っています。
現時点での制約は、評価が数学タスクに限られている点です。コーディングや一般推論など他のタスクへの適用可能性は未検証であり、より長期の訓練や異なるアーキテクチャで線形性の仮定がどこまで成り立つかも今後の検証が必要です。それでもRLVRの学習ダイナミクスに関する理論的な新規性と、計算コスト削減という実用的なインパクトの両面で、今後の応用が期待される手法といえるでしょう。
