NVIDIAが拡散言語モデル「Nemotron-Labs Diffusion」を公開 — 同一重みで推論速度最大6.4倍を実現

NVIDIAが2026年5月23日に3B・8B・14Bの拡散言語モデルを公開。1つのチェックポイントで自己回帰・拡散・自己推測の3モードを切り替えられる
拡散モードで順伝播あたり2.6倍、自己推測モードで最大6.4倍（TPF指標）の効率向上。NVIDIA B200実機での実測スループットは毎秒約865トークン（自己回帰比約4倍）を記録
Qwen3 8B比で平均精度1.2%向上を維持しつつ高速化を実現。HuggingFaceでオープンライセンスのモデル重みを無償公開

1つの重みで3モードを切り替え

NVIDIAは2026年5月23日、拡散言語モデル（Diffusion Language Model）シリーズ「Nemotron-Labs Diffusion」を公開しました。テキストモデルが3B・8B・14Bの3サイズ、Vision Language Modelが8Bサイズで提供されています。

最大の特徴は、同一のモデルチェックポイントから自己回帰・拡散・自己推測の3モードを選択できる点です。モードの切り替えは推論フレームワークSGLangの設定1行で完了し、モデルの再学習や別途のモデルファイルは不要です。既存の自己回帰ベースのアプリケーションとの後方互換性を維持しながら、用途に応じて高速化の恩恵を受けられます。

アーキテクチャの基盤はEfficient-DLM（arXiv:2512.14067）フレームワークです。事前学習済みの自己回帰モデルから拡散言語モデルへ変換する手法を採用し、ブロック単位の注意機構によってKVキャッシュとの互換性を維持しています。訓練は1.3兆トークンの事前学習と450億トークンの教師あり微調整の2段階で構成されています。

拡散モードと自己推測モードの仕組み

拡散モード（FastDiffuser）は、32トークンのブロックを一度に生成する方式です。各ブロック内でノイズ除去（デノイジング）を複数ステップ繰り返し、信頼度の閾値を超えたトークンから順に確定していきます。左から右へ1トークンずつ生成する通常の自己回帰方式と異なり、ブロック単位の並列処理によって順伝播あたりのトークン生成数（TPF：Tokens Per Forward Pass）が2.6倍に向上します。

自己推測モード（LinearSpec / QuadSpec）は、拡散モードをドラフト生成器として活用します。まず拡散モードが双方向的にブロック全体のドラフトを生成し、次に因果的検証でドラフトの妥当性を確かめ、条件を満たしたプリフィックス部分をそのまま採用します。この「仮生成して検証」という二段構えにより、TPFが線形版（LinearSpec）で6倍、二次版（QuadSpec）で最大6.4倍に達します。

TPFはハードウェアの違いに左右されない計算効率の指標です。NVIDIA B200実機でLinearSpecを動作させたSpeedbenchの実測では毎秒約865トークンで、同環境の自己回帰比では約4倍の速度向上でした。TPFが6倍でも実測が約4倍にとどまる理由は、メモリ帯域幅やKVキャッシュ操作といったシステムレベルのオーバーヘッドがTPFの計算に含まれないためです。6.4倍はQuadSpecの理論効率、4倍はLinearSpecの実環境スループットとして、それぞれ異なる文脈で示された数値です。

精度と速度の評価結果

ベンチマーク評価では、Nemotron-Labs Diffusion 8BがQwen3 8Bを平均精度で1.2%上回りました。推論速度を大幅に向上させながら精度も改善している点が、この手法の実用的な価値を示しています。

高速化の恩恵は特にバッチサイズが小さいワークロードで顕著です。OScaRのようなKVキャッシュ量子化による最適化手法がバッチ処理の並列性に依存するのに対し、Nemotron-Labs DiffusionはバッチサイズI=1の環境でも速度向上の効果が得られます。リクエストが分散するオンラインAPIのようなユースケースでの導入が現実的です。

拡散モードのデノイジングステップ数を調整することで、推論コストと出力品質のバランスを用途に応じて変えられます。また、生成後のトークン修正機能も備えており、従来の自己回帰モデルでは困難だった後処理的な修正が行えます。

モデルの提供と利用方法

テキストモデル3種（3B・8B・14B）はNVIDIA Nemotron Open Model Licenseのもとで商用利用可能な形で公開されています。VLM（8B）はNVIDIA Source Code Licenseが適用され、研究利用に向けた柔軟な条件が設けられています。

モデルの重みはHuggingFaceのコレクション（nvidia/nemotron-labs-diffusion）から入手できます。訓練レシピはGitHubリポジトリ「NVIDIA-NeMo/Megatron-Bridge」内の/examples/diffusion/recipes/nemotron_labs_diffusion以下で公開されています。推論にはSGLangを利用し、設定1行の変更でモードを切り替えられるため、既存のARベースのアプリケーションからの移行コストは低く抑えられます。

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

A Blog post by NVIDIA on Hugging Face

huggingface.co

NVIDIAが拡散言語モデル「Nemotron-Labs Diffusion」を公開 — 同一重みで推論速度最大6.4倍を実現

1つの重みで3モードを切り替え

拡散モードと自己推測モードの仕組み

精度と速度の評価結果

モデルの提供と利用方法

関連記事

AIエージェントとは？仕組み・設計パターン・マルチエージェントまでわかりやすく解説

「AIはもう十分賢い」Databricksが説く、評価とガバナンスが次の壁

LLMの「グループシンク」問題 — なぜAIはいつも「7」を返すのか

人気記事