MoE（Mixture of Experts）とは？スパースアーキテクチャがLLMの性能と効率を両立できる理由をわかりやすく解説

MoEは複数のエキスパートFFNとルーターで構成され、各トークンを上位2〜3個のエキスパートにのみ送るスパース活性化で、大規模モデルの性能と計算効率を両立します
Mixtral 8x7Bは47Bのパラメータを持ちながら1トークンあたりの計算量は約13B相当に抑えられており、Denseモデルより大幅に少ないFLOPSで推論できます
GPT-4・DeepSeek V3・Gemma 4・Llama 4など2026年の主要フロンティアLLMがMoEを採用しており、「少ない計算で大きな知識容量」を実現するデファクトアーキテクチャになっています

MoEとは何か

MoE（Mixture of Experts: 専門家の混合）は、ニューラルネットワークにおけるアーキテクチャの設計手法です。通常の「Dense（密な）モデル」が入力トークンごとに全パラメータを使用するのに対し、MoEは複数の「エキスパート」ネットワーク群と、どのエキスパートを使うかを判断する「ルーター」で構成されます。

Transformerに適用する場合、各Transformer層のFFN（Feed-Forward Network: フィードフォワードネットワーク）をMoE層に置き換えます。このMoE層は「ゲートネットワーク（ルーター）」と「複数のエキスパートFFN」から成り立っており、ルーターは入力トークンを受け取り、スコアが上位K個（通常は2個）のエキスパートを選んでそこにトークンを送ります。選ばれなかったエキスパートは計算を行いません。これをスパース活性化と呼びます。

図1: MoEレイヤーの構造。入力トークンはルーターを経由し、選ばれた上位2つのエキスパートにのみ送られ、その出力が重み付き和として合算される

DenseモデルとMoEの違い

従来のDenseモデルは、各トークンの処理に全パラメータを使います。モデルが大きくなるほど表現力は上がりますが、計算コストとメモリ消費も比例して増大します。GPUの学習時間は指数的に伸び、Meta社のLlama 2（70B）のプレトレーニングには330万GPU時間（A100換算）が必要だったと報告されています。

一方MoEモデルでは、パラメータの総数（知識の器の大きさ）と、1トークンを処理するために実際に使う計算量を独立して制御できます。MistralのMixtral 8x7Bを例にとると、合計パラメータは47Bですが、1トークンを処理する際に動かすのは約13B相当にとどまります。Self-AttentionなどMoE以外の共有層を含めた全体でも、Denseの47Bモデルより大幅に少ない計算量です。

図2: DenseモデルとMoEの活性化パターンの違い。Denseは全ノードが常に活性化するのに対し、MoEは選ばれた一部のエキスパートのみが計算を行う

ルーターとエキスパートの仕組み

ゲーティングネットワークの動作

ルーター（ゲートネットワーク）は、各トークンをどのエキスパートに送るかを学習するネットワークです。最もシンプルな実装は、入力埋め込みと重み行列の積にSoftmax関数を適用し、各エキスパートへのスコアを算出するものです。スコア上位K個のエキスパートを選んでトークンを転送し、その出力を重み付き和として合算することで最終出力を得ます。ルーターは他のパラメータと同時に学習されます。

2017年にShazeer et al.が提案した「Noisy Top-k Gating」では、スコアに適度なノイズを加えてからTop-k選択を行います。これにより、特定のエキスパートだけが集中的に使われてしまう問題（後述の負荷の偏り）をある程度緩和できます。

エキスパートは何を専門とするのか

NVIDIAがMixtral 8x7Bを使って行った実験では、エキスパートがある程度のドメイン専門化を示すことが確認されています。たとえば抽象代数の問題では特定のエキスパートが多く使われ、法律問題では別のエキスパートが優勢になるという傾向がありました。一方でST-MoEの研究では、エンコーダーのエキスパートが句読点や固有名詞など表層的な分担を示すケースも観察されており、単純に「高度な概念を担当する」とは言えません。

MoEの歴史

MoEのアイデアは1991年のJacobs・Jordan・Nowlan・Hintonによる論文「Adaptive Mixture of Local Experts」に起源があります。入力空間の異なる領域を異なるエキスパートが担当するアンサンブル的な枠組みが提案され、エキスパートとゲートを同時に学習する仕組みが確立されました。

2013年にはEigen、Ranzato、Ilya（Sutskever）らがMoEをディープネットワークの一層として組み込む方向性を探索し、「大きくかつ効率的」なモデルの可能性を示しました。2017年にはShazeer et al.（共著者にGeoffrey HintonとJeff Deanを含む）が、スパース性を導入して137BパラメータのLSTMにMoEを適用し、大規模な言語処理への道を開きました。

Transformerへの本格統合は2020年代から始まります。2020年6月にGoogleがGShard（arXiv:2006.16668）を発表し、600Bを超えるTransformerをMoEでスケーリング。2021年1月にはSwitch Transformers（arXiv:2101.03961）が、ルーターをTop-1エキスパート選択に簡略化し、T5と同等規模のモデルと比較して大幅に高速な学習を達成しました。2021年12月にはGLaM（arXiv:2112.06905）がGPT-3相当の品質をエネルギー消費1/3で実現し、計算効率の観点でMoEの優位性を示しました。そして2023年末にMistralがMixtral 8x7Bを公開したことで、MoEはオープンソースコミュニティに一気に広まりました。

負荷分散という重要な課題

MoEの運用で最も重要な技術課題が負荷分散（Load Balancing）です。ルーターを適切に設計しないと、学習初期に人気の高いエキスパートが優先的に選ばれ、そのエキスパートがより多く学習されてさらに選ばれやすくなるという自己強化ループが生じます。結果として残りのエキスパートがほぼ使われない「エキスパートコラプス」が起き、MoEの利点が失われます。

この問題への代表的な対処として、Switch Transformersは補助損失（Auxiliary Loss）を導入しました。各エキスパートに均等にトークンが割り当てられるよう促すペナルティを学習損失に加算することで、偏りを防ぎます。またエキスパートキャパシティ（Expert Capacity）という概念も重要で、1エキスパートが処理できるトークン数の上限を設けることでオーバーフロートークンを次の層へ渡します。容量係数を高くすると品質が上がる一方でデバイス間通信コストが増えるため、設計上のトレードオフが生じます。

図3: 補助損失なし（左）と補助損失あり（右）の負荷分散の違い。補助損失によってエキスパートへの均等なトークン割り当てが促進される

主要MoEモデルの比較

MoEアーキテクチャは現在、フロンティアLLMの標準的な選択肢となっています。LLM推論高速化技術（KVキャッシュ、vLLMなど）と組み合わせることで、巨大なMoEモデルを実際のプロダクション環境で運用することが現実的になっています。

モデル名	総パラメータ	有効パラメータ（1トークンあたり）	エキスパート数	公開年
Mixtral 8x7B	47B	～13B	8	2023
Mixtral 8x22B	141B	～39B	8	2024
DeepSeek V3	671B	37B	256	2024
Llama 4 Scout	109B	17B	16	2025
Llama 4 Maverick	400B	17B	128	2025
Gemma 4（MoE）	26B	3.8B	128	2025

MoEのメリットとデメリット

メリット

学習の高速化: 同じ計算コストでDenseモデルより多くのトークンを処理でき、プレトレーニング効率が大幅に向上します
推論FLOPSの削減: 全パラメータではなく一部のエキスパートのみを動かすため、同じパラメータ数のDenseモデルより少ない計算量で推論できます
スケールしやすい知識容量: エキスパート数を増やすことで、計算量を抑えながらモデルの知識容量を拡大できます

デメリットと注意点

VRAMは節約できない: 推論時に使うエキスパートは一部でも、全エキスパートのウェイトをメモリに保持する必要があります。Mixtral 8x7Bでは約47B分のVRAMが必要です
ファインチューニングの難しさ: スパースモデルは過学習しやすく、小さいバッチサイズと高い学習率の組み合わせが有効ですが、Denseモデルのノウハウがそのまま適用できない場合があります
学習の複雑さ: 補助損失やエキスパートキャパシティなど追加のハイパーパラメータが増え、学習の安定化に工夫が必要です