- GRPO訓練で全サンプルが失敗した際に意味のないLorem Ipsumをプロンプトに前置するだけで探索空間が広がり、ゼロ優位問題を解消できる
- Qwen3-1.7B〜7Bモデルで平均スコアが最大+6.20ポイント向上し、元プロンプトでの再サンプリングを大幅に上回る性能を記録した
- 低パープレキシティの擾乱テキストが有効であり、既存GRPOパイプラインへの追加実装コストが極めて低い点が実用上の強みとなっている
研究の背景
大規模言語モデル(LLM)の推論能力を強化学習で向上させる手法として、GRPO(Group Relative Policy Optimization)が広く採用されています。GRPOは同一プロンプトに対して複数の応答をサンプリングし、その相対的な良さを表すアドバンテージを用いてモデルを更新するフレームワークです。
しかしこのアプローチには根本的なボトルネックがあります。グループサンプリングされた全応答が失敗した場合、アドバンテージが一律ゼロになり、訓練シグナルが完全に消滅してしまいます。これが「ゼロ優位問題」と呼ばれる現象です。モデルが難問に直面するほどこの現象が頻発し、訓練が停滞するジレンマが生じます。
従来の対処法は同一プロンプトで繰り返し再サンプリングすることでした。しかしモデルが本質的に解けない問題であれば、同じ条件で何度サンプリングしても探索の幅は広がりません。
LoPEの仕組み
本論文が提案するLoPE(Lorem Perturbation for Exploration)は、このゼロ優位問題をシンプルなアイデアで解決します。全サンプルが失敗した場合に、プロンプトの先頭にランダム生成されたLorem Ipsum(意味のない疑似ラテン語)テキストを付加し、追加サンプリングを行います。

具体的な手順はシンプルです。まずG=8個の応答を通常のプロンプトで生成し、全て失敗した場合にのみLoPEが起動します。次に擾乱付きプロンプトでG'=24個の追加応答を生成して成功したものを取り出します。最後に成功応答と元の失敗応答を混合し、G=8のグループサイズを維持したバッチでポリシー更新を行います。
冒頭に見慣れないテキストが付加されることで、モデルは同じ質問でも異なる推論経路を探索し始めます。この出力分布の変化こそがLoPEの本質的なメカニズムです。
なぜLorem Ipsumが機能するか
著者らはLorem Ipsumが有効な理由を、擾乱テキストの「パープレキシティ(モデルの予測困難度)」という観点から分析しています。

Lorem Ipsumは疑似ラテン語であり、英語の自然な文章に近いパープレキシティを持ちます。そのためモデルは元の質問の意味を大きく損なわずに、異なる推論の起点を得られます。一方、完全にランダムなトークンを使った擾乱はパープレキシティが高く、モデルの内部表現を破壊してしまいます。
論文では他のラテン系テキスト(CaesarやCiceroの文章など)も同様に有効であることを確認しており、「自然言語分布に近いが質問内容と無関係」という条件を満たせば広範な擾乱が機能することが示されています。
実験結果
LoPEはQwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-Math-7Bの3モデルで評価されました。訓練データにはOpenR1-Math-46kを使用し、MATH-500、GSM8K、AMC、AIME 2024/2025などの数学ベンチマークで性能を測定しています。

ベースラインのGRPOと比較した改善幅は、1.7Bモデルで+2.79ポイント、4Bモデルで+4.62ポイント、7Bモデルでは+6.20ポイントとなっています。モデル規模が大きくなるほど恩恵が顕著になる傾向は、ゼロ優位問題が訓練全体に与える影響の大きさを示しています。
また元プロンプトでの単純な再サンプリングと比較した場合も、LoPEは一貫して上回る結果を記録しました。同じ条件でサンプリングを繰り返すだけでは探索の幅が広がらないことを裏付けています。
アドバンテージシェーピング
論文はLoPEに加えて「アドバンテージシェーピング」という補助技術も提案しています。通常のGRPOではグループ内の応答だけを使ってアドバンテージを計算するため、難問で稀に得られた成功応答の価値が過小評価されます。
アドバンテージシェーピングではG+G'個の全応答(擾乱分を含む)の統計を使って正規化し、成功応答のアドバンテージを2.1〜5.0倍に増幅します。拡散モデルのRL微調整でも勾配の調整が性能を左右することが示されており、勾配の質的改善は領域を問わず重要な課題です。難問での稀な成功を訓練に適切な重みで反映させることで、探索効率が大幅に向上します。
まとめと今後の展望
LoPEは「意味のないテキストを前置するだけ」という最小限の介入で、GRPOの本質的なボトルネックを解消することを実証しました。実装コストが低く、既存のGRPOパイプラインへ容易に組み込める点が実用上の強みです。
現状では数学推論タスクでの検証に留まっていますが、コード生成や論理推論など検証可能な報酬を使う他のタスクへの応用可能性も十分にあります。低パープレキシティであれば疑似ラテン語以外の擾乱テキストも有効という知見は、「プロンプト空間の摂動」という新たな探索戦略の研究方向を開く可能性があります。HuggingFace Spaceでデモが公開されており、すぐに動作を確認できる環境が整っています。
