- 文書内のトークンが同一の専門家プールを共有するという制約を設けることで、健康・医療やニュース報道などのドメイン特化が学習データから自然発生する
- 全専門家の12.5%(16専門家)のみ使用しても性能低下は約3%に留まり、従来のMoEと比較してデプロイコストの大幅削減が可能になる
- 学習コードとインタラクティブな可視化ツールがオープンソースで公開されており、誰でも専門家クラスタの形成過程を確認できる
EMOの概要と背景
Allen AIは2026年5月8日、Emergent Modularity for MoE(EMO)と名付けた新しいMixture-of-Experts(MoE)モデルを発表しました。総パラメータ数14B(アクティブ1B)、128専門家中8専門家を同時使用する構成で、1兆トークンを用いて事前学習されています。
従来のMoEモデルは専門家の分業が自然発生するとされていましたが、実際に分析すると「前置詞」「定冠詞」「固有名詞」など表面的な言語特性による分類にとどまっていました。医療記事であっても、従来型MoEでは「the」などの機能語によって専門家が決まるため、同一記事のトークンが複数の無関係な専門家に散在する状況が生じていたのです。
EMOはこの課題を解決するために、文書の境界を弱い教師信号として活用します。人手によるドメインラベルや事前定義された分類基準は一切使わず、学習データの構造だけから意味的なモジュール性を引き出す点が最大の特徴です。
文書単位共有プールの仕組み
EMOの核心は、同一文書内のすべてのトークンが同じ専門家プールから専門家を選ぶという制約にあります。具体的な処理は次のように進みます。
まずルーターが文書内のすべてのトークンにわたって専門家への選好を平均します。次にその平均スコアが高い専門家群を「この文書の共有プール」として確定し、各トークンはそのプールの中からのみ専門家を選択できます。文書ごとに異なるプールを使用できるため、医療文書は医療系専門家を、ニュース文書はニュース系専門家を自然に引き寄せる構造が学習中に生まれます。

また、学習時に使用するプールのサイズをランダムにサンプリングする設計も重要です。固定サイズに過学習することを防ぎ、推論時に任意のサイズのサブセットをサポートできるようになります。負荷分散はミニバッチ単位ではなく多数の文書をまたぐグローバル設定で行われるため、モジュール性と専門家の均等利用という二つの目標が矛盾なく両立できます。
専門家12.5%で性能低下3%以内
EMOの最も実用的な成果は、専門家数を大幅に削減しても性能を維持できる点です。全128専門家のうち16専門家(12.5%)だけを使用した場合、全ベンチマークにわたる性能低下は平均約3%に留まります。32専門家(25%)では低下幅が約1%まで縮まります。
一方、同じ条件で従来型のMoEを評価すると性能の急落が観察されます。最小構成ではランダム回答レベルまで落ちることも確認されており、EMOとの差は歴然としています。
さらに、適切な専門家サブセットを特定するために大規模なバリデーションセットは不要です。数ショットのデモンストレーションを含む例が1件あれば、タスクに適したモジュールを見つけられることが示されており、既存の枝刈り手法(Easy-EPなど)とも組み合わせが可能です。
自然発生するドメイン特化の実態
EMOの専門家クラスタを事前学習文書の最初の100トークンで分析すると、健康・医療、ニュース報道、米国政治・選挙、映画・音楽といった意味的なドメインが形成されていることが確認されています。医療記事を例にとると、EMOではトークンの約95%が「Health, Medical & Wellness」クラスタに集中するのに対し、従来型MoEのトップクラスタは「所有格と定冠詞」であり、内容とは無関係な語彙特性でグルーピングされています。
この違いは単なる学術的な観察にとどまらず、MoEモデルの分布ドリフト問題への新たな視点を提供します。EMOでは一つのモデルが汎用的な全能力を保ちながら、特定ドメイン向けのスリム化構成にも柔軟に切り替えられるため、エッジデバイスへのデプロイやコスト最適化において実践的な選択肢となります。
公開されているリソース
Allen AIは今回の発表に合わせて複数のリソースをオープンソース公開しています。HuggingFaceのコレクションではEMO本体と比較用の標準MoEベースラインが入手でき、GitHubには学習コードが公開されています。加えて、専門家クラスタの形成過程をブラウザ上でインタラクティブに探索できる可視化ツールも提供されており、研究者だけでなく実務者も容易に挙動を確認できます。
今後の課題として著者らは、より良い専門家サブセット選択・合成手法の開発、全体性能を損なわないモジュール更新の方法、そして解釈可能性向上への応用を挙げています。大規模モデルへのスケーリング検証も残されており、今後の研究展開が注目されます。
