Nemotron 3 Ultraとは？MoE×Mambaで推論速度6倍を実現するNVIDIAのLLM

MoE（混合専門家）でアクティブパラメータを全体の10%（55億）に抑え、Mambaとの組み合わせでKVキャッシュを削減し、推論スループットを最大6倍に向上
NVFP4精度で20兆トークンを事前学習し、11以上の専門教師モデルを使う多教師蒸留（MOPD）で事後学習の精度を段階的に向上
ベースモデル・量子化モデル・学習データ・学習レシピをすべてHuggingFaceでオープンソース公開し、開発者が試しやすい環境を整備

研究の背景

大規模言語モデル（LLM）の推論コストは、モデルの規模が増えるにつれて急速に膨らみます。精度を高めるためにパラメータを増やすほど、推論時のメモリ消費と計算量も増え、商用展開のハードルが上がります。

この課題へのアプローチとして、MoE（Mixture of Experts、混合専門家）が注目を集めています。MoEは各トークンの処理に全パラメータではなく一部の「専門家」のみを使うため、総パラメータ数を増やしながら実際の計算量を抑えられます。また、Transformerの自己注意機構が持つKVキャッシュの肥大化問題には、入力を固定サイズの状態に圧縮して処理するMamba（状態空間モデル）との組み合わせが有効です。

NVIDIAはこの2つを組み合わせた「Nemotron 3 Ultra」を発表し、主要なオープンLLMと同等の精度を保ちながら推論スループットを最大6倍に向上させたと報告しています。

アーキテクチャ

Nemotron 3 Ultraの総パラメータは550億ですが、推論時にアクティブになるのはその約10%にあたる55億です。108層から成るハイブリッド構造で、Mamba層と自己注意（Attention）層を交互に配置しています。

MoE部分はLatentMoEという手法を採用しており、1層あたり512個の専門家を持ちつつ、入力トークンごとに上位22件だけを起動します。ルーティングを潜在空間（潜在サイズ2048）で行うことで、通常のスパースMoEより高いパラメータ効率を実現しています。

Mamba部分は状態次元128、グループ数8、ヘッド数256という構成です。自己注意機構と異なり、過去の情報を固定サイズの状態に圧縮して処理するため、シーケンスが長くなってもKVキャッシュが増えません。これにより100万トークン（1Mトークン）のコンテキスト長に対応できます。

学習の工夫

事前学習は合計20兆トークンのテキストデータで行われました。第1フェーズ（15兆トークン）と第2フェーズ（5兆トークン）に分けてデータ構成を調整し、ウェブクロール約49%（第1フェーズ）を主体に、法律文書、コード（173B新規トークン）、事実探索データなど19カテゴリを組み合わせています。

学習精度にはNVFP4（NVIDIAの4ビット浮動小数点形式）を使用しました。ただし学習中に損失の急激な悪化（発散）が複数回発生し、チェックポイントに戻って再学習するなど、安定化に多大な工夫が必要でした。

事後学習ではMOPD（Multi-teacher On-Policy Distillation、多教師オンポリシー蒸留）と呼ばれる手法を2回反復します。コーディング、数学、エージェント推論など11以上の専門分野でそれぞれ特化した教師モデルを訓練し、学生モデルが自ら生成した回答に対して報酬シグナルを与えます。2回目の反復では1回目の中間モデルも教師として加わり、さらに精度を向上させます。加えて、MTP（Multi Token Prediction、複数トークン予測）ヘッドを2つ追加して学習することで、推論時に投機的デコーディングを利用でき、生成速度をさらに高めています。

推論性能の比較

図1: 精度とスループットの比較。Nemotron 3 Ultraは他のオープンLLMと同等の精度を保ちながら、推論スループットで大幅な優位性を示す（GB200でのNVFP4精度計測）

性能比較は、8Kトークン入力・64K出力という推論負荷が高い設定で行われました。GB200上でNVFP4精度を使用した場合、他の主要オープンLLMと比べてスループットが最大約6倍に達します。

この差はデコード（トークン生成）フェーズで特に顕著です。密なモデルは推論時に全パラメータを読み込む必要がありますが、Nemotron 3 UltraはアクティブパラメータがわずかなためI/Oボトルネックを回避できます。一方、入力の読み込み（プリフィル）が多い場面では活性パラメータ数が少ないため、Qwen-3.5などの競合モデルに速度で劣る場合があります。

精度面では、MMLU 89.08%、GPQA 50.0%、HumanEval 83.84%、MATH 82.0%を記録しています。1Mトークンの長文脈ベンチマーク「RULER 1M」では76.83%を達成しました。注意機構の計算量を大幅に削減して1Mトークン対応を実現したMiniMax Sparse Attentionとは異なり、Nemotron 3 UltraはMambaによるキャッシュ回避という別のアプローチで長文脈処理を実現しています。