- テキストCoTの数千トークンを少数の潜在思考ベクトルに圧縮し、推論時間を10.1倍短縮・テキスト生成を22.6倍高速化
- 外部デコーダによる順方向・逆方向の双方向監督と内部ステップ間MLPの3系統で潜在ベクトルを訓練し、推論時はデコーダを完全除去して追加コストなし
- MathVistaなど8ベンチマークで平均精度79.1%を達成し、CODI(70.8%)・SIM-CoT(74.0%)といった既存の潜在推論手法を大幅に上回る
研究の背景
マルチモーダルLLM(画像とテキストを同時に扱う大規模言語モデル)の推論精度を高める手法として、Chain-of-Thought(CoT)が広く使われています。CoTは答えを出す前に「考え方の手順」をテキストで書かせることで正確性を高める技術ですが、数千トークンに及ぶ長い推論ステップが必要になるため、処理速度が大幅に低下するという問題がありました。
この問題を回避しようとして生まれたのが「潜在推論」のアプローチです。テキストトークンの代わりに連続的な数値表現(潜在ベクトル)で推論を行うことで速度を確保しようとするものですが、CODIやSIM-CoTといった先行手法は、潜在ベクトルに意味のある推論内容を学習させる監督の仕組みが十分でなく、精度面での課題が残っていました。自動運転や医療診断支援など、リアルタイム処理が求められる場面でも実用できる水準には至っていなかったのです。
CoLTの仕組み
Zhuらが提案するCoLT(Chain of Latent Thoughts)は、テキストの推論ステップを「潜在思考ベクトル」と呼ばれる連続的な数値表現に置き換えます。L個のテキストトークンで表現していた推論をK個の高次元ベクトル(K≪L)に圧縮して処理するため、トークン生成にかかる時間を根本から削減できます。ベースモデルにはQwen3-VL-8Bを使用し、外部デコーダにはより小型のQwen3-0.6Bを採用しています。

CoLTの訓練は、3種類の監督信号を組み合わせた設計になっています。順方向デコーダは各潜在思考ベクトルから次のステップのテキスト推論を生成できるよう学習し、逆方向デコーダは前のテキスト文脈から生成した隠れ状態を実際の潜在ベクトルに近づけます。この整合にはコサイン類似度損失(ベクトル間の方向の近さを測る指標)を用いることで、潜在ベクトルに意味的な内容が定着していきます。
さらに内部ステップ間予測として、2層のMLP(多層パーセプトロン)が現在の潜在ベクトルから次のベクトルを予測し、推論の論理的な流れを保ちます。訓練損失は「L_task + αL_fwd + βL_bwd + γL_int(α=β=γ=0.2)」の合計で、その後に強化学習(GRPO)による精度改善も実施されます。推論時は外部デコーダとMLP投影ヘッドを完全に除去するため、追加の計算コストはゼロです。
実験結果
CoLTはMathVista・ChartQA・TextVQAなど8つのベンチマークで評価されました。平均精度は79.1%で、テキストCoT(Qwen3-VL)の75.7%、SIM-CoTの74.0%、補助画像を使う視覚潜在推論(LVR)の73.6%、CODIの70.8%をすべて上回っています。個別ベンチマークではChartQAで+9.6ポイント、TextVQAで+6.1ポイントの改善が確認されました。
各監督信号の寄与を調べたアブレーション実験では、双方向監督と内部予測のいずれを取り除いても精度が低下することが示されており、3系統の組み合わせが最終性能に不可欠だとわかります。処理速度の面では、テキストCoTと比べて全体の推論時間を10.1倍短縮し、テキスト生成にかかる時間は22.6倍高速化しました。マルチモーダル学習の効率化という観点では、テキスト整合型の視覚量子化でマルチモーダル訓練を最大70%高速化するViQも注目されており、推論コスト削減への関心の高まりを示しています。

まとめと今後の展望
CoLTは精度と速度の両立という課題に対し、双方向デコーダによる外部監督と内部ステップ間予測を組み合わせた訓練設計で明確な答えを示しました。推論時にデコーダを除去するため既存の推論インフラをそのまま利用でき、実運用への障壁が低い点も強みです。
残る課題として、潜在思考の解釈可能性はデコーダを使ったとき以外は直接確認できない点、また訓練にはテキストCoTデータが引き続き必要な点が挙げられます。今後はより少ない訓練データでの学習効率化や、リアルタイム動画処理といった時間的制約の厳しいタスクへの応用が期待されます。
