Google、推論・エージェント対応を強化したオープンモデル「Gemma 4」を発表

Gemma 4は4種類のサイズ（E2B/E4B/26B MoE/31B Dense）で提供され、31BモデルはArena AI text leaderboard #3を獲得
Apache 2.0ライセンスで商用利用可能、関数呼び出し・構造化JSON出力・ビジョン・音声入力に対応
Hugging Face・Kaggle・Ollama等で配布、エッジデバイスからクラウドまで幅広いハードウェアで動作

オープンモデルの新基準

Googleは2026年4月2日、オープンモデルシリーズの最新版「Gemma 4」を発表しました。Gemma 4は高度な推論とエージェントワークフロー向けに設計された4種類のモデルで構成され、パラメータあたりの性能で従来のオープンモデルを大きく上回ります。Gemmaシリーズは初代リリース以降、累計4億回以上ダウンロードされており、10万を超える派生モデルを生む開発者エコシステムを形成しました。

Gemma 4は31B Dense、26B MoE（Mixture of Experts）、E4B（Effective 4B）、E2B（Effective 2B）の4サイズで提供されます。31BモデルはArena AI text leaderboardでオープンモデル中第3位、26B MoEモデルは第6位を獲得し、自身の20倍のサイズを持つモデルを上回る性能を示しました。この性能密度により、開発者はより少ないハードウェア資源で最先端の能力を利用できるようになります。

推論とエージェント機能の強化

Gemma 4の主要な特徴は、多段階プランニングと深い論理処理を必要とする高度な推論能力です。数学ベンチマークと指示追従タスクで大幅な性能向上が確認されており、複雑な問題解決が求められるアプリケーションに適しています。

エージェントワークフロー向けには、ネイティブの関数呼び出し、構造化JSON出力、システム命令のサポートが組み込まれました。これにより、外部ツールやAPIと連携しながら自律的にタスクを実行するAIエージェントの構築が可能になります。さらに、すべてのモデルがビジョン・音声入力に対応し、OCRやチャート理解といったマルチモーダルタスクを実行できます。E2BおよびE4Bモデルは音声認識にも対応しており、エッジデバイスでの実用性を高めています。

エッジからクラウドまで対応

Gemma 4はハードウェア特性に応じた最適化が施されており、AndroidスマートフォンやRaspberry Piといったエッジデバイスから、開発者向けワークステーション、大規模クラウドインフラまで幅広い環境で動作します。E2BとE4Bモデルは推論時にそれぞれ実質2B・4Bパラメータのみを活性化することで、メモリ消費とバッテリー使用量を抑えながら低レイテンシ処理を実現しました。

コンテキスト長はエッジモデルで128K、大型モデルで最大256Kトークンに対応し、リポジトリ全体や長文ドキュメントを単一プロンプトで処理できます。140以上の言語でネイティブに学習されており、グローバルなアプリケーション開発を支援します。31Bモデルの非量子化bfloat16ウェイトは単一のNVIDIA H100 GPU（80GB）に収まるよう設計され、量子化版はコンシューマーGPU上でローカル動作が可能です。

入手方法とライセンス

Gemma 4はApache 2.0ライセンスで公開され、商用利用を含む幅広い用途に制限なく利用できます。モデルはHugging Face、Kaggle、Ollamaから無料でダウンロード可能で、Google AI StudioおよびAI Edge Galleryでは即座にオンラインで試用できます。Android開発者はML Kit GenAI Prompt APIを通じて本番アプリケーションに組み込むことが可能です。

開発環境面では、Hugging Face Transformers、vLLM、llama.cpp、MLX、NVIDIA NIM、Unsloth、Kerasなど主要フレームワークが初日からサポートされており、既存の開発ワークフローに即座に統合できます。Vertex AI、Cloud Run、GKEを利用したGoogle Cloud上でのスケーラブルなデプロイも提供されています。Googleはこのリリースにより、オープンモデルの継続的な開発を通じて開発者エコシステムへの貢献を表明しました。