- 正しい推論軌跡に潜む冗長な試行錯誤を内省的に特定し、マスク付き選好最適化で本質的なステップ間を直結する新手法「ThoughtFold」を提案
- DeepSeek-R1-Distill-Qwen-7Bにおいてトークン使用量を約56%削減しながら、数学推論ベンチマークで最先端水準の精度を維持
- 追加の外部ラベリングを必要とせず、モデル自身の内省によって冗長性を検出するため、さまざまな推論モデルへの適用が容易
研究の背景
近年のLLM(大規模言語モデル)は、強化学習を使って長い思考の連鎖(Chain-of-Thought)を生成しながら複雑な問題を解く能力を著しく高めました。DeepSeek-R1やQwenシリーズに代表されるこうした推論モデルは、数学やコーディングなどの難問で人間を超える成績を示しています。
ところがこの進歩には副作用があります。強化学習によって得られた長い推論チェーンには、正解にたどり着くために試みた不必要な探索や失敗ステップが大量に残存しています。モデルは「遠回りの正しい道」を学んでしまうため、推論のたびに膨大なトークンを消費します。これを「過思考(overthinking)」と呼びます。
推論コストは実用上の深刻な問題です。長い推論チェーンはAPIコストやレイテンシを直接押し上げ、スマートフォンなど計算資源が限られた環境での利用を困難にします。推論の高速化はLLM研究の急務となっており、ThoughtFoldはこの課題に正面から取り組んだ研究です。
提案手法
ThoughtFoldの核心は「内省的選好学習(Introspective Preference Learning)」です。モデルが自分自身の推論過程を振り返り、どのステップが冗長だったかを特定する仕組みです。

処理はおおまかに3段階で進みます。まず、正解を導いた推論チェーンを入力として受け取ります。次に、モデルが自身の軌跡を内省し、結論に直接必要なステップと、本質的には不要な探索ステップを区別します。最後に、この区別を利用して「本質的なステップのみを含む軌跡」と「冗長ステップを含む元の軌跡」のペアを生成し、マスク付き選好最適化(Masked Preference Optimization)でモデルを訓練します。
選好最適化とは、2種類の出力を比較させることで「より良い方」を選ぶ確率を高める学習手法です。ThoughtFoldでは、冗長ステップを含む軌跡を「好ましくない例」、本質的ステップのみを結んだ軌跡を「好ましい例」として提示します。「マスク付き」という修飾が示すように、冗長と判断されたステップには損失計算でペナルティが明示的に与えられます。これにより、モデルは遠回りをせず核心的な推論だけを生成するよう誘導されます。
この手法の重要な特徴は、外部の人手アノテーションを必要としない点です。モデルが自らの推論を内省して訓練データを生成するため、スケールアップが容易です。
実験結果
著者らはDeepSeek-R1-Distill-Qwen-7Bを基盤モデルとして実験を行いました。このモデルはすでに優れた推論能力を持つ7Bパラメータのモデルです。

最大の成果はトークン使用量の約56%削減です。同じ問題を解くために必要なトークン数が半分以下になりながら、AIME(高校数学オリンピック問題)やMATH、GSM8Kといった主要な数学推論ベンチマークで最先端水準の精度を維持しています。
比較対象には既存の推論チェーン短縮手法が用いられており、ThoughtFoldはこれらに対しても精度とトークン効率のバランスで優位性を示しています。精度を犠牲にせず推論コストだけを削減できている点が、この研究の実用的な価値です。
まとめと今後の展望
ThoughtFoldは、強化学習で育った推論モデルの「過思考」という根本的な問題に、モデル自身の内省という手段で取り組んだ研究です。外部ラベルなしに冗長性を検出し、マスク付き選好最適化で効率的な推論を学ばせるアプローチは、将来の推論モデル開発にも応用できる汎用性を持ちます。
課題としては、内省の精度がベースモデルの能力に依存する点が挙げられます。弱いモデルでは冗長ステップの識別が誤りやすく、逆に精度を落とすリスクがあります。また、数学推論以外のドメイン(コーディング、科学推論など)での検証はこれからの課題です。
推論コストの削減は、LLMを実サービスへ展開する際の経済的な障壁を下げます。ThoughtFoldのような手法が実用化されれば、より多くのユーザーが高品質な推論を低コストで享受できるようになるでしょう。
