DiffusionGemma 26Bとは？拡散モデルでGPU推論速度が4倍に向上

DiffusionGemma 26Bは拡散モデルで256トークンを並列生成し、NVIDIA H100で毎秒1000トークン以上、RTX 5090で700トークン以上を達成
MoE構造で全体26Bながら推論時のアクティブパラメータは3.8B、18GB VRAMの家庭用GPUでも動作可能
Apache 2.0ライセンスで公開済み、Hugging Face・vLLM・MLXなど主要フレームワークへ即日対応

自己回帰の速度ボトルネック

現在の主要な大規模言語モデル（Large Language Model、LLM）の大半は、「自己回帰（Autoregressive）」と呼ばれるアーキテクチャを採用しています。このアーキテクチャでは回答を1トークン（単語や文字の断片）ずつ順番に生成します。前のトークンが確定するまで次の計算を開始できないため、GPUの並列処理能力を十分に引き出せません。

チャットボットや文書生成ツールが普及するにつれ、この逐次生成の制約は無視できないボトルネックとなっています。特に長文の生成や、ユーザーが待機時間を意識するリアルタイム対話では、速度と品質のトレードオフが開発者の課題でした。Googleが2026年6月10日に公開したDiffusionGemma 26Bは、拡散モデルという異なるアプローチでこの問題に取り組んでいます。

拡散で256トークンを同時生成

DiffusionGemma 26Bは、テキスト生成に拡散モデルの考え方を応用しています。生成はランダムなプレースホルダートークンで埋まった「白紙のキャンバス」から始まり、複数の反復ステップを経てトークンが徐々に洗練されていきます。自己回帰モデルが1トークンずつ左から右へ確定させていくのとは、根本的に異なる仕組みです。

この仕組みの最大の利点は、256トークン分のブロックを一度に並列処理できる点です。さらに双方向アテンション機構を採用しており、生成中のすべてのトークンが互いを参照できます。この相互参照により、マークダウンの正確なクロージングやコードブロックの整合性維持など、構造化された出力の品質向上にも貢献しています。

アーキテクチャと実測性能

DiffusionGemma 26Bは、混合専門家（Mixture of Experts、MoE）構造を採用しています。総パラメータ数は26Bですが、推論時にアクティブになるのはわずか3.8Bのみです。これにより18GBのVRAMで動作する軽量さを実現しており、研究者や開発者が自前のハードウェアで試せる環境が整っています。Gemma 4ファミリーの言語能力を基盤に、新たな拡散ヘッドを組み合わせた構成です。

実測値では、NVIDIA H100で毎秒1000トークン以上、GeForce RTX 5090では毎秒700トークン以上を記録しています。同等クラスの標準的な自己回帰モデルと比べて最大4倍の推論速度向上を達成しており、リアルタイム応答が求められるアプリケーションへの適性が大きく高まっています。

現時点での制限と適した用途

Googleの公式発表では、DiffusionGemmaの出力品質は標準的なGemma 4より低いと明示されています。最高品質の回答が求められる本番環境では、引き続き標準Gemma 4の使用が推奨されます。この点はモデル選択の重要な判断材料です。

一方、低並行性のローカル推論環境には特に適しています。リアルタイム対話アプリケーションや、クラウドではなく端末上で動作するエッジAIへの応用が主なターゲットです。高スループットを必要とするクラウド環境では、256トークンブロック単位の生成という特性上、速度面での優位性は限定的になる点も考慮が必要です。

入手方法と対応環境

DiffusionGemma 26BはApache 2.0ライセンスで公開されており、Hugging Faceからモデルの重みをダウンロードして利用できます。MLX、vLLM、Hugging Face Transformersといった主要な推論フレームワークへの統合もすでに対応済みで、既存の開発環境にすぐ組み込める状態です。クラウド経由での利用はGoogle Cloud Agent PlatformおよびNVIDIA NIMからも提供される予定です。

拡散型テキスト生成はこれまで研究段階の話題として扱われることが多かった領域でした。Googleが26Bスケールのモデルとして実用レベルで公開したことで、テキスト生成アーキテクチャに新たな選択肢が加わりました。品質と速度のトレードオフを開発者がどう評価するか、今後の事例蓄積が注目されます。