Optical Reasoningとは？推論を「画像」に変換してトークン29%削減を実現する新手法

LLMのChain-of-Thought推論をテキストではなく画像として表現する「Optical Reasoning」を提案し、タイポグラフィ型（T-OR）とグラフィカル型（G-OR）の2方式を定義
言語タスクで平均28.57%、マルチモーダルタスクで16%のトークン削減を達成し、テキスト推論比1.96倍のトークン効率を実現
GPT-5.1・Gemini 2.5 Flash・Claude Sonnet 4.5など5種類のモデルと5つのベンチマークで有効性を検証済み

研究の背景

大規模言語モデル（LLM）の推論能力を引き出す手法として、Chain-of-Thought（CoT、思考の連鎖）が広く使われています。問題を解くまでの過程をステップごとに言語化することで精度が上がりますが、テキストとして出力する分だけトークン数が大幅に増加するという課題があります。

近年はテキストと画像を交互に組み合わせた「インターリーブ推論」の研究も進んでおり、潜在視覚空間を活用したインターリーブ推論なども提案されています。本研究はさらに踏み込んだ問いを立てます。「推論の記述媒体をテキストから画像へ丸ごと置き換えることはできるか？」という問いです。

この着想の背景には、画像が持つ「光学的圧縮」の特性があります。テキストを視覚的レイアウトに変換すると、同じ情報量をより少ないトークンで伝えられる可能性があります。画像1枚はLLMにとって固定トークン数として扱われますが、その中に詰め込める情報量は文字数次第で大きく変わります。

2つの方式の仕組み

タイポグラフィ型（T-OR）は、推論テキストをXeLaTeXを用いて高密度な視覚レイアウトに変換する手法です。テキスト幅・フォントサイズ・行間・余白といったパラメータを最適化し、指定したトークン予算内でできるだけ多くの推論内容を1枚の画像に詰め込みます。埋め込み率と読みやすさのバランスをとりながら最適なレイアウトを探索する設計です。

グラフィカル型（G-OR）は、推論の各ステップをテキストと図解が組み合わさったマルチパネル画像として生成する手法です。Nanobananaと呼ばれる画像生成モデルを活用し、推論過程を「ステップごとのビジュアルパネル」として整理します。数式や関係性を図示しながら、重要な文字情報も明示的に保持する構成です。

図1: 各推論パラダイムの比較。T-ORは密なタイポグラフィレイアウト、G-ORはステップ対応のグラフィカル構成で推論を画像として表現する

従来のテキスト推論では、モデルが生成する1000トークン分の推論文はそのまま1000トークンを消費します。Optical Reasoningでは同じ内容を画像化することで、モデルが「受け取るトークン数」を大幅に削減できます。

実験設定

評価にはGPT-5.1、Gemini 2.5 Flash、Claude Sonnet 4.5（クローズドソース）、Kimi K2.5、Qwen3-VL-235B（オープンソース）の5種類のモデルを使用しています。ベンチマークは数学推論のAquaRatとGSM8K、科学推論のGPQA DiamondとScienceQA、インターリーブ推論のZebra-CoTの合計5種類です。

精度に加えて「MAG（限界精度向上）」という指標も採用しています。これはトークンを追加することで得られる精度改善の効率を測るもので、値が高いほど少ないトークンで高い精度を達成していることを意味します。

実験結果

T-ORを用いた言語タスク（AquaRat、GSM8K、GPQA Diamond）では、テキスト推論と同等以上の精度を維持しながら平均28.57%のトークン削減を達成しました。MAGでの効率性はテキスト推論の1.96倍に達しています。

図2: トークン圧縮率ごとの精度変化。T-ORは広いトークン削減範囲にわたってテキスト推論と同等以上の精度を維持し、効率の高さを示している

マルチモーダルタスク（ScienceQA、Zebra-CoT）でも平均16%のトークン削減を実現しています。特にZebra-CoTではGemini 2.5 FlashがT-ORによってテキスト推論を上回る精度を記録しました。

G-ORはAquaRatで最高精度を達成しており、テキスト推論の0.7323に対して0.8150まで向上しています。ただし全タスクで安定した改善が見られるわけではなく、タスクの種類やモデルとの相性によって効果が変わります。

図3: T-ORとG-ORのケーススタディ比較。T-ORは推論を密なタイポグラフィレイアウトで保持し、G-ORはステップごとのグラフィカルパネルに整理する

92.5%のトークン削減という極端な圧縮条件下でも、Gemini 2.5 Flashはテキスト推論を上回る精度を示しました。この結果はモデルの視覚認識が必ずしも高解像度に依存していないことを示唆しています。レンダリング形式の比較では、Qwen3-VLではXeLaTeXが、GeminiではMatplotlibが最適とされるなど、モデルによって相性が異なることも確認されています。

限界と課題

本手法にはいくつかの制約があります。まず効果はモデルによって一様ではなく、最適なレンダリング形式がモデルごとに異なるため、汎用的な設定を定めることが難しい面があります。

G-ORについては、生成した図解に視覚的な不正確さが生じる場合があります。幾何学的な制約が正確に描写されないケースが論文内でも報告されており、グラフィカルな幻覚への対策は今後の研究課題です。また本研究の評価は外部から提供された推論ステップを画像化する形で行われており、モデル自身がOptical Reasoningを自律的に生成するエンドツーエンドの検証はまだ実施されていません。

まとめと今後の展望

Optical Reasoningは「推論をテキストで書く」という従来の前提を見直し、画像を推論媒体として使うことでトークン効率を改善する手法です。言語タスクで約29%、マルチモーダルタスクで16%のトークン削減を達成しながら精度を維持または改善できることが、複数のモデルとベンチマークで示されました。

今後の発展としては、各モデルの特性に合わせたレンダリング戦略の最適化や、モデルが自らOptical Reasoningを生成する能力の習得が挙げられます。推論コストの削減が重要な課題となっているAI開発において、「画像で考える」というアプローチは研究者・エンジニア双方から実用的な関心を集める方向性といえます。