- ルターガース大学の研究チームが2026年6月に発表。MTP(Multi-Token Prediction)ドラフティングで複数トークンを同時予測し、Emu3-8Bで最大13.28倍の推論高速化を達成
- 画像トークンを1次元列ではなく2次元グリッドとして扱い、水平・垂直両方向の隣接トークンを並列ドラフトすることで計算複雑度をO(n²)からO(n)に削減
- 段階的検証(Staged Verification)で棄却トークンを残差分布から補正し、DPG-BenchとGenEvalで品質を維持したまま大幅な高速化を実現
研究の背景
自己回帰型(AR: Autoregressive)モデルを用いた画像生成は、大規模言語モデル(LLM)の技術を画像領域に応用した手法です。画像をトークンの列として扱い、1つずつ順番に予測していく仕組みですが、この逐次処理が推論速度のボトルネックになっています。
従来の自己回帰型画像生成では、画像をラスタースキャン順(左上から右下へ)に並べた1次元列として処理します。解像度が上がるほどトークン数が2乗で増えるため、高品質な画像を生成するには大きな計算コストがかかります。LLMの高速化技術として広まった投機的デコード(Speculative Decoding)も、この1次元制約の中で動作するため、画像が本来持つ2次元の空間的局所性を活用できていないという課題がありました。
予測依存性の2次元構造
ルターガース大学のShilong Xiangらのチームが2026年6月にarXivで発表したSSD(Spatially Speculative Decoding)は、画像トークンの予測が「1次元列内の位置の順序」ではなく「2次元の空間的な隣接関係」に依存するという観察から出発しています。

論文では、生成中の行の後半をランダムトークンで意図的に置換する実験を行っています。1次元の文脈が大きく乱れているにもかかわらず、直上のトークンが正確に生成されていれば視覚的な一貫性が維持されました。これは、垂直方向の予測が「1次元列内の位置」ではなく「空間的な隣接関係」に基づいているという直接的な証拠です。同時に、水平・垂直の両方向で同様の受容率が得られることも確認されており、2次元空間での同時予測が実現可能だと示されています。
SSDの仕組み
SSDの核心は、MTP(Multi-Token Prediction:複数トークンの同時予測)ドラフティングヘッドと呼ばれる軽量な追加モジュールにあります。このヘッドは既存のARモデルに追加学習で付加するだけで、モデルを根本から再設計する必要はありません。Midjourney画像60,000枚を使った追加学習のみで適用でき、ドラフティングコストは1ARステップの0.1倍以下と非常に軽量です。

具体的には、水平方向に1行あたり5トークンを先読みしつつ、複数の行を垂直方向に並列でドラフトします。「予測対象の行内トークンはお互いに依存しない」という空間的な性質を利用しているため、縦方向の複数行は独立して処理できます。この2方向の並列処理により、計算複雑度が画像サイズnに対してO(n²)からO(n)に削減されます。
予測ターゲットにも工夫があります。視覚トークンは確率分布が平坦で直接予測しにくいため、離散トークンではなく最終層の直前にある隠れ状態(hidden state)を予測対象にしています。この設計が、後述する生成品質の維持に大きく貢献しています。
検証プロセスでは、ドラフトしたトークンが基準を満たさない場合に全体を棄却してKVキャッシュ(過去のフォワードパス結果を再利用する仕組み)を巻き戻すのではなく、棄却サンプリング(品質基準を満たさなければトークンを棄却して再計算する方式)と残差サンプリング(棄却されたトークンを元の分布との差分から補正する手法)を組み合わせて並列に誤りを修正します。さらに「段階的検証(Staged Verification)」として最初の行を確定してから2行目を洗練させる処理を行うことで、生成品質がさらに向上します。
実験結果
SSDは3つのモデルで品質を維持したまま大幅な高速化を確認しています。
モデル | グリッドサイズ | 速度向上 | DPG-Benchスコア |
|---|---|---|---|
Emu3-8B | 90×90 | 13.28倍 | 83.44 |
Lumina-mGPT-7B | 48×48 | 12.19倍 | 74.57 |
Janus-Pro-7B | 24×24 | 5.74倍 | 83.40 |

高解像度になるほど高速化効果が大きくなる理由は、O(n)削減の仕組みから直感的に理解できます。標準的な自己回帰生成ではグリッドサイズnが2倍になると推論コストはおよそ4倍(O(n²))に増加しますが、SSDでは1ステップあたりに処理できるトークン数がグリッド拡大に比例して増えます。Emu3-8Bの90×90グリッドで最大13.28倍の高速化が得られているのはこのためで、高解像度モデルほどバッチ処理の恩恵が大きくなります。同様の速度向上と品質維持の傾向はGenEvalベンチマークでも確認されており、手法の汎用性が示されています。
自己回帰型画像生成の推論コスト削減という問題意識は、知識蒸留で画像修復の推論を15倍超高速化したMoebiusとも共通しています。アプローチは異なりますが、実用的な高解像度画像生成のコスト障壁を下げようとする方向性は一致しています。
まとめと今後の展望
SSDは、自己回帰型画像生成に固有の2次元空間性を直接活かした手法として、FlashAttentionのような行列演算最適化とは異なるアプローチを示しています。モデルアーキテクチャを変えずに軽量な追加ヘッドを付加するだけで大幅な高速化が得られるため、既存モデルへの適用が現実的です。
課題としては、学習データ60,000枚でも品質が飽和していない点が挙げられており、データ規模を拡大することでさらなる改善が見込まれます。また、高速化率がグリッドサイズに大きく依存するため、小解像度モデルでは恩恵が限定的です。それでも、高解像度の実用的な画像生成において推論コストを10倍以上削減できる可能性は、LLMベース画像生成の普及コスト削減につながる成果といえるでしょう。
