- NVIDIAが日本語処理に特化した90億パラメータのLLM「Nemotron-Nano-9B-v2-Japanese」をHugging Faceで公開。Nejumi Leaderboard 4の10B以下カテゴリで1位を獲得した
- Transformer-Mambaアーキテクチャを採用し、同等モデルと比較して最大6倍のスループット向上を実現。エッジGPUへのデプロイも可能な軽量設計となっている
- 600万個の日本文化対応ペルソナデータ「Nemotron-Personas-Japan」を活用した合成データでファインチューニングを行い、ツール呼び出しやエージェント能力も強化されている
ソブリンAIとは何か
NVIDIAは2026年2月、日本語特化の小規模言語モデル(SLM: Small Language Model)「Nemotron-Nano-9B-v2-Japanese」をHugging Faceで公開した。このモデルは「ソブリンAI(Sovereign AI)」の実現を主要な目標として掲げている。
ソブリンAIとは、オープンモデル・データセット・ライブラリを組み合わせることで、特定の国や地域の開発者が外部サービスに依存せず独立してカスタマイズ・運用できるAI体制を指す。クラウドサービスへの依存を最小化し、機密データをオンプレミス環境内で処理できる点が、日本の企業・官公庁にとって大きな利点となる。
日本のエンタープライズ向けAI導入においては、「高度な日本語能力」と「エージェンティック能力(ツール呼び出し・コード生成・数学的推論)」を同時に備えた小規模モデルが不足していた。Nemotron-Nano-9B-v2-Japaneseはこの課題への直接的な回答として位置づけられている。
モデルの技術的特徴
パラメータ数は90億(9B)で、エッジGPUへのデプロイが可能な軽量設計を維持しながら高い性能を実現している。アーキテクチャにはTransformer-Mambaハイブリッドを採用しており、同等規模のモデルと比較して最大6倍のスループット向上を達成した。マルチターン会話や複雑なツール操作に最適化されており、構造化データ生成によるAPI呼び出しにも対応している。
性能評価では、日本語LLMの代表的なリーダーボードであるNejumi Leaderboard 4の10B以下カテゴリで1位を獲得した。40以上のベンチマークを通じた多角的な評価が実施されており、日本語の理解・生成・コード生成・数学的推論・アライメント(指示追従・バイアス対応・信頼性)の各領域で測定されている。同サイズ帯の競合モデルであるQwen3-8Bを複数指標で上回っていることも報告されている。
図表を生成できませんでした
図1: Nemotron-Nano-9B-v2-Japaneseの2段階トレーニングパイプライン
2段階トレーニングパイプライン
本モデルのトレーニングは2フェーズで構成される。第1フェーズの継続事前学習(Continued Pretraining)では、日本語Wikipediaや青空文庫、Fineweb-2 Japanese、sip3-ja-general-web-corpusといった日本語オープンソースコーパスに加え、NVIDIAが用意した多言語・専門領域データを組み合わせて学習させた。学習インフラにはMegatron-LMを使用している。
第2フェーズの監督付きファインチューニング(SFT)では、NVIDIAが新たに公開した「Nemotron-Personas-Japan」データセットを活用した。このデータセットは日本の人口統計・地理分布・性格特性に基づいて生成された600万個の合成ペルソナで構成されており、文化的に正確な日本語対話シナリオの合成データ生成を可能にしている。ツール呼び出し専用のデータセットも生成・活用することで、エージェント能力の強化を実現した。なお同様の手法は米国・インド・シンガポール・ブラジル向けにも展開されており、地域特化型SLM開発の共通フレームワークとして機能している。
デプロイと活用方法
本モデルはHugging Faceから直接ダウンロードして利用できるほか、NVIDIA NIM microservicesを通じてbuild.nvidia.comから推論エンジンとしても利用できる。ファインチューニングが必要な場合は、NeMo Megatron-Bridge・NeMo AutoModel・NeMo-RLといったNVIDIA製ツールチェーンが対応している。
想定される主な活用シーンは、日本語対話を必要とするカスタマー対応エージェント、プライベートネットワーク内で完結させる社内自動化ツール、医療・金融・法律といった専門領域向けにファインチューニングしたアシスタントなどだ。9Bという軽量設計のため、複数インスタンスの並列デプロイや、量子化技術(GPTQ・AWQ・GGUF)を組み合わせたリソース効率の高い運用も現実的な選択肢となる。
Nemotron-Personas-Japanデータセット(CC BY 4.0ライセンス)も同時に公開されており、研究者や企業が独自の日本語SLM開発に活用できる。計算コストを抑えながら日本語と英語の両方に高い性能を維持したモデルとして、日本のAI内製化の動きに貢献することが期待される。
参考元 https://huggingface.co/blog/nvidia/nemotron-nano-9b-v2-japanese-ja