- 並列バックボーンで全ドラフトトークンを一括生成し、軽量なDominoヘッドが因果情報を後付け補正する2段構成で、従来手法のトレードオフを解消
- Qwen3-8BでTransformersバックエンド5.49倍・SGLangスループット5.8倍の高速化を達成し、EAGLE-3やDFlashを超える性能を実証
- GRUと低ランク補正ヘッドでパラメータ追加をわずか+5.3%に抑えながら、因果情報を効率的に注入する設計を実現
投機的デコーディングの背景
大規模言語モデル(LLM)の推論は、トークンを1つずつ順番に生成する自己回帰デコーディングが基本です。この方式はモデルの品質を保てる一方、速度の面でボトルネックになりやすい性質があります。
この問題を解消する主要な技術として「投機的デコーディング」があります。小さなドラフトモデルが複数の候補トークンを先に生成し、大きなターゲットモデルが一括で検証して採用可否を判定する仕組みです。ターゲットモデルの並列検証を活かすことで、単純な自己回帰より大幅な高速化が期待できます。
しかし既存手法には根本的なトレードオフがありました。逐次型ドラフト(EAGLE-3など)は前のトークンの情報を使って次を予測するため品質は高いものの、生成が順番待ちになるオーバーヘッドが大きくなります。一方、並列型ドラフト(DFlashなど)はドラフト生成を同時に行うため高速ですが、トークン間の因果的な依存関係を無視するため品質が落ちるという問題がありました。
Dominoの2段構成アーキテクチャ
この研究が提案する「Domino」は、因果モデリングとドラフト生成を切り離すことでこのトレードオフを克服します。まず並列で速くドラフトを作り、その後で軽量な補正を加えて因果情報を注入するという2段構成です。

まず並列バックボーンが、ブロック全体のドラフトトークンの初期分布(ベースロジット)を一括で生成します。ターゲットモデルのコンテキスト特徴量とマスクされたドラフト入力を受け取り、一度のフォワードパスで全ポジションの隠れ状態を計算する設計です。
次に軽量なDominoヘッドが、逐次処理で因果情報を補正します。この逐次処理は並列バックボーンとは独立した小さなモジュールで行われるため、オーバーヘッドは最小限に抑えられます。最終的なレイテンシ増加はわずか2.8%です。
Dominoヘッドの内部構造
Dominoヘッドは2つのサブモジュールで構成されています。
因果エンコーダ(Causal Encoder)は隠れ次元1024のGRU(ゲート付き回帰ユニット)で、前のドラフトトークンの埋め込みを要約した因果状態を逐次更新します。GRUはLSTMより軽量でありながら系列の文脈を保持できる構造のため、計算コストと品質のバランスを取る合理的な選択です。
低ランク補正ヘッド(Low-Rank Correction Head)は256次元のボトルネック構造を使い、並列バックボーンの隠れ状態と因果エンコーダの出力を組み合わせてロジット空間の差分補正量を計算します。最終的なドラフトトークンは「ベースロジット + 補正ロジット」の合算から生成され、追加パラメータは5600万(ベースモデル比+5.3%)に留まります。
安定訓練のための課程学習
このアーキテクチャを単純に学習させると、補正ヘッドが並列バックボーンの役割を「乗っ取る」最適化が起きてしまい、バックボーン自体の品質が下がる問題が生じます。
この問題を解消するために導入されたのがbase-anchored課程学習(Base-Anchored Curriculum)です。訓練開始時は並列バックボーン自体の出力を強く監督し(重みλが1)、訓練が進むにつれて補正ヘッド込みの最終出力への監督に比重を移していきます(λを0に向けて線形減衰)。バックボーンが先に安定した基盤分布を学習してから、補正ヘッドが差分を学ぶという段階的な訓練を実現しています。

実験結果と他手法との比較
Qwen3-8Bモデルを対象に、数学・コード・対話など8つのベンチマーク(GSM8K、HumanEvalなど)で性能を評価しました。

Transformersバックエンドでのエンドツーエンド高速化率は平均5.49倍で、比較対象の中で最高性能を達成しました。平均承認長(1回の検証ステップで採用されるドラフトトークン数)は7.17トークンで、DFlashの6.06トークンを大きく上回ります。
EAGLE-3は逐次処理のオーバーヘッドが大きく高速化率は3.28倍に留まり、DFlashは因果情報の欠如から承認長が伸びず4.66倍です。DominoはDFlashからのレイテンシ増加を2.8%に抑えながら品質を大幅に改善し、両者の課題を同時に解消しています。

SGLang(高並列サービング環境)でのスループット評価では最大5.8倍の向上が確認されており、実際のAPI提供環境での有効性も実証されています。LLM推論高速化の手法としてEarlyTomのようなトークン圧縮アプローチも各タスクで提案されていますが、Dominoはテキスト系LLMのデコーディング段階をアーキテクチャレベルで改善する点で異なる位置付けです。
まとめ
Dominoは「並列ドラフトの速さ」と「逐次ドラフトの品質」を両立させた投機的デコーディングの新設計です。並列バックボーンで速く生成し、軽量なDominoヘッドで因果情報を補正するという役割分担が、従来手法では解決できなかったトレードオフを解消しました。
Qwen3という実用的なモデルへの適用実績があり、Transformers・SGLangの両バックエンドで検証済みという点から、実際のLLMデプロイコスト削減に直結する手法として実用的な意義があります。ドラフト品質の上限がターゲットモデルの検証精度に依存するという投機的デコーディング全般の制約は残るものの、現時点での高速化フレームワークとして有力な選択肢です。
