- 強化学習で「簡単すぎて学びにならない」問題を自動的に組み合わせ、新たな検証可能な複合問題を生成する手法を提案
- 4Bから30Bパラメータのモデルで一貫した推論能力の向上を確認し、カリキュラム学習との組み合わせでさらに性能が改善
- 異なるドメインの問題を組み合わせるクロスドメイン構成により、汎用的な推論能力の獲得を実現
研究の背景
大規模言語モデル(LLM)の推論能力を高める手法として、検証可能な報酬を用いた強化学習(RLVR: Reinforcement Learning with Verifiable Rewards)が注目を集めています。RLVRでは、正解が明確に定まる数学やコーディングの問題をモデルに解かせ、答え合わせの結果を報酬として学習を進めるアプローチです。
しかし、この手法には見過ごせない課題がありました。学習が進むにつれて、モデルが正答率100%で解ける「簡単すぎる問題」が増加していくのです。こうした問題はモデルにとって新たな学びをもたらしません。結果として、有効に活用できるトレーニングデータが実質的に目減りしていきます。
先行研究では、ロールアウト(試行)の正答率が0%の「難問」を優先的に学習させる方法が検討されてきました。ただし、この戦略は正答率100%の問題を単に切り捨てるだけであり、限られたデータの活用効率という根本的な問題は解消されていなかったといえるでしょう。
提案手法
Tencent Hunyuanの研究チームが提案するComposition-RLは、驚くほどシンプルなアイデアで上記の課題を解決しています。正答率100%になってしまった「簡単な問題」同士を自動的に組み合わせ、新しい複合問題を生成するというものです。

たとえば、「12 + 8 = ?」と「面積の公式を使って長方形の面積を求めよ」という2つの簡単な問題があるとしましょう。Composition-RLはこれらを組み合わせて「長方形の縦が12+8で求まる値、横が5のとき面積はいくつか?」のような複合問題を自動生成します。個々の問題は簡単でも、組み合わせることで適度な難易度の新たなトレーニングデータが生まれるわけです。
重要なのは、元の問題がそれぞれ検証可能(正解が明確)であるため、組み合わせた複合問題も自動的に検証可能になるという点でしょう。報酬設計のための追加コストがかからず、スケーラブルにデータを拡張できます。
さらに、研究チームはカリキュラム型Composition-RLも提案しています。学習の初期段階では2問の組み合わせから始め、モデルの成長に合わせて徐々に構成する問題数を増やしていく仕組みです。人間の学習でも、基礎から応用へとステップアップしていくのが効果的なのと同様の発想といえます。

実験結果
Composition-RLの有効性は、4Bから30Bパラメータまで幅広いモデルスケールで検証されました。実験の結果、オリジナルのデータセットで強化学習を行ったベースラインと比較して、Composition-RLはすべてのモデルサイズで一貫した推論能力の向上を達成しています。
とりわけ注目すべきは、カリキュラム型のバリアントがさらなる性能改善をもたらした点です。段階的に複合問題の深さを増していく学習戦略が、モデルの推論力を効果的に引き出すことが確認されました。
また、異なるドメインの問題を組み合わせるクロスドメインRLの有効性も実証されています。たとえば数学の問題と論理推論の問題を組み合わせることで、単一ドメインの問題だけで学習するよりも汎用的な推論能力が身につくという結果が得られました。この発見は、限られた学習データを最大限に活かす上で大きな意味を持つでしょう。
まとめと今後の展望
Composition-RLは、強化学習において「役に立たない」と見なされがちだった簡単な問題を再活用するという、シンプルかつ実用的なアプローチを提示しました。既存の検証可能な問題を組み合わせるだけで新たなトレーニングデータを生成できるため、データ収集やアノテーションの追加コストが不要です。
コードやモデルがGitHubおよびHugging Faceで公開されており、再現性の高さも魅力といえるでしょう。
一方で、どのような問題の組み合わせが最も効果的なのか、構成の自動化にどこまで品質保証を担保できるのかといった課題は残されています。また、数学やコーディング以外の、正解の検証が難しいタスクへの適用範囲については今後の検証が必要です。それでも、限られたリソースでLLMの推論能力を底上げするアプローチとして、Composition-RLは強化学習コミュニティに新たな選択肢を提供する研究だといえます。

