- 推論に64種の専用抽象トークンを使うAbstract CoTにより、Qwen3-8BでMATH-500精度90.8%を維持しながら推論トークンを最大11.6倍削減することに成功
- Policy Iteration Warm-upとGRPO(Group Relative Policy Optimization)の2段階後学習パイプラインで、未知の抽象トークン語彙を有用な推論表現へと育成させる手法を確立
- 訓練を通じて抽象語彙の使用頻度が自然言語と類似した冪乗則分布を示し、モデルが「言語なき推論語彙」を自発的に体系化する現象が観察された
研究の背景と課題
Large Language Model(LLM)が数学や論理推論などの複雑な問題を解くとき、思考の過程を自然言語で記述するChain-of-Thought(CoT)推論が標準的な手法となっています。しかし、推論ステップが長くなるほどAPIコストと待ち時間が増大するという現実的な問題があります。
この課題に対し、連続ベクトル空間で推論する「非言語的推論」の研究も進められていますが、言語化されたCoTと比べると精度が落ちる傾向がありました。KVキャッシュや投機的デコーディングなどのシステム最適化がインフラ側からの削減アプローチであるのに対し、本研究は推論プロセス自体を圧縮する「Abstract Chain-of-Thought(Abstract CoT)」という後学習機構を提案しています。
Abstract CoTの仕組み
Abstract CoTの核心は、自然言語の代わりに64種の専用「抽象トークン」から成る予約語彙を使って推論ステップを表現する点にあります。モデルはプロンプトに対し、この抽象トークン列(最大128トークン)を生成した後、最終回答を出力します。抽象トークン自体は人間が読み取れる意味を持たない記号ですが、訓練を通じて推論に必要な情報を凝縮して保持するよう学習されます。

学習は2段階で構成されています。まず「Policy Iteration Warm-up」では、モデルに言語CoTと抽象トークンを同時に生成させつつ、アテンションマスクによって回答生成時には抽象トークンしか参照できないよう制限します。これが「情報ボトルネック」として機能し、抽象トークンに有用な情報が凝縮されるよう促します。次のステップでは言語CoTを除外し、抽象トークン列だけで自己蒸留を行います。
Warm-upで初期化された状態から、GRPO(Group Relative Policy Optimization)を用いた強化学習で抽象系列の生成をさらに最適化します。GRPOはDeepSeekが提案した手法で、グループ内の相対的な報酬を使ってポリシーを効率的に更新します。制約付きデコーディングにより抽象語彙からの逸脱を防ぎながら訓練が進む構成です。
実験結果
Qwen3-8Bを用いた実験では、言語CoTベースラインと比べてトークン数を大幅に削減しながら、ほぼ同等の精度を維持することが確認されました。
ベンチマーク | Abstract CoT | 言語CoTベースライン | トークン削減率 |
|---|---|---|---|
MATH-500 | 90.8% | 92.6% | 11.6倍 |
AIME'25 | 24.4% | 25.6% | 2.7倍 |
GPQA-Diamond | 50.5% | 51.5% | 7.9倍 |
HotpotQA | 58.8 F1 | 58.1 F1 | 4.3倍 |
AlpacaEval-LC | 60.8勝率 | 58.4勝率 | 2.2倍 |
数学推論(MATH-500)では精度を1.8ポイント下げるのみで11.6倍のトークン削減を達成しています。指示従いタスク(AlpacaEval-LC)では、Abstract CoTがベースラインを上回る勝率を記録しました。Qwen3-4B、Qwen3-32B、Granite-4.0-Micro(3B)など複数のモデルファミリーでも有効性が確認されており、特定のアーキテクチャに依存しない手法であることが示されています。
冪乗則の発現
訓練過程を通じて、抽象トークンの使用頻度分布が自然言語の語彙分布に見られる冪乗則(Zipfの法則に類似)へと変化していく現象が観察されました。初期段階では均一に近い分布だったものが、Warm-upを経て特定のトークンが頻繁に使われるようになり、RL訓練中に「多くの文脈で再利用される汎用トークン」と「特定概念に予約される稀なトークン」への分化が進みます。

この発見は、モデルが明示的な指示なしに自然言語の語彙体系と類似した構造を自発的に獲得したことを示しています。「推論に必要な情報を最小限の記号で表現する仕組み」がデータ駆動で自然に生まれた点は、潜在推論の解釈可能性研究においても新たな示唆を与えるものです。
まとめと今後の課題
Abstract CoTは、推論の核心を抽象トークンに凝縮することで、精度をほぼ保ちながらAPI推論コストを大幅に削減できる後学習手法です。MATH-500で11.6倍というトークン削減は、長文CoTが前提のAPI利用コストを根本から見直せる可能性を示しています。
一方で、抽象トークンの内部表現が人間には解釈できないため、エラー時のデバッグが難しいという制約があります。ベンチマークによってトークン削減率にばらつきがあり(2.2倍から11.6倍)、タスクの性質によって効果が異なる点も考慮が必要です。今後は語彙サイズの最適化や、コード生成・科学推論など多様なドメインへの適用が研究課題として挙げられます。
