LLMを組み合わせても限界がある：67モデル実験で判明した「共同失敗上限」の法則

67モデル・21プロバイダの大規模実験で、すべてのLLMが同時に失敗する確率βが組み合わせシステムの性能上限を規定することを数学的に証明
数学・コード・GPQA-Diamondの各ベンチマークでβは5〜13%に達し、従来のペアワイズ相関指標はこの上限を最大2.5倍過小評価していた
強力なルーティング信号がなければアンサンブルが単一最良モデルを超えることは稀であり、LLM活用システムの設計方針の根本的な見直しを促す

研究の背景

複数のLLMを組み合わせることで精度を高めようとするアプローチは、AI開発の現場で急速に普及しています。クエリごとに最適なモデルを選ぶ「ルーティング」、複数モデルの出力を多数決で統合する「アンサンブル投票」、答えに自信がない場合に次のモデルへ委ねる「カスケード」、そして最近注目されているMixture-of-Agents（MoA）など、多様な統合戦略が実用化されてきました。

これらの手法は直感的に有望です。モデルが互いに異なる弱点を持つなら、うまく組み合わせれば弱点を補い合えるはずだからです。しかし実際には、「組み合わせれば必ず良くなる」という期待が満たされないケースも多く、その理由が体系的に解明されていませんでした。本研究は67モデル・21プロバイダという前例のない規模の実験を通じて、この限界を数学的に定式化しました。

共同失敗上限（β）の定義

本論文の中心概念は「共同失敗率（β）」です。βとは、対象プール内の全モデルが、同じクエリで同時に不正解となる確率を指します。

ポイントは、βが組み合わせシステムの「絶対的な天井」を規定するという点です。どれほど巧みなルーティングやアンサンブルのポリシーを用いても、β分のクエリは全モデルが揃って答えられないため、精度の上限は「1－β」を超えられません。ルーティングで最良モデルを選んでも、カスケードで順番に試しても、多数決で票を集めても、βの壁は乗り越えられないのです。

従来の診断指標として広く使われてきたのが、モデル間の「ペアワイズ誤り相関（ρ）」です。ρが低いほどモデルの多様性が高く、組み合わせ効果が大きいと考えられてきました。しかし本研究は、このρがβを系統的に過小評価することを実証しました。ガウスコプラ（多変量正規分布に基づく依存構造の統計モデル）によるβの予測値は実測値の約2.25〜2.5倍小さく、67モデル全体のとき中央値で2.5倍（95%バンド[2.1, 2.7]）の過小評価が生じることを数値シミュレーションで示しています。

実験設定と主な結果

実験はMATH-500（高校・大学レベルの数学問題）、実行採点によるコード生成、GPQA-Diamond（博士レベルの科学問題）の3種のベンチマークで実施されました。対象はOpenAI・Anthropic・Google・Mistralなど21プロバイダの最前線モデル67種です。各問題に対して各モデルが正解したか否かの二値行列を構築し、Clopper-Pearson法（バイナリデータの信頼区間を計算する統計手法）でβを推定しました。

主な実測値は以下のとおりです。数学の自由記述形式ではβ≈5.2%、コード実行採点ではβ≈7.9%、GPQA-Diamondの自由記述形式ではβ≈12.7%でした。一見小さな数字ですが、これは「いかなる組み合わせ戦略でも精度の上限が最大87〜95%に制限される」ことを意味します。

図1: 領域ごとのβ値（95%信頼区間付き）。天井制約型（数学・コードの自由記述、GPQA自由記述）はβ>0で選択ポリシーの性能上限を規定する。実現制約型（GPQA多肢選択・MMLU-Pro）はβ≈0で、上限よりルーティング精度が課題となる。

さらに重要な発見が「2つの体制」の存在です。GPQA-Diamondの同じ問題を多肢選択式で出題するとβ≈0ですが、自由記述式に変えるだけでβ=12.7%に跳ね上がりました。問題の内容は同じでも、解答フォーマットだけでβが大きく変化するという事実は、ベンチマーク設計や評価手法の選択に根本的な影響をもたらします。

図2: GPQA-Diamondの同一問題を多肢選択式（上）と自由記述式（下）で問うた比較。橙色セルが全モデル不正解の問題。フォーマットを変えるだけでβが0→12.7%に変化し、平均正答率も66%→51%に低下した。

アンサンブル・ルーティング設計への影響

本研究の知見は、LLM活用システムを実務で設計するエンジニアに直接的な示唆をもたらします。

ルーティングについては、TF-IDF++ドメイン分類による学習済みルーターを検証したところ、単一最良モデルに対する優位はわずかで（性能利得の約9%しか回収できず、95%信頼区間がゼロをまたぐ）、最適フロンティアからの乖離は依然大きい結果でした。強力なクエリレベルの信号、たとえば検証可能な正誤判定や明確なドメインシグナルがなければ、ルーティングによる実利は限定的です。

アンサンブル投票については、質を揃えた同等モデル間では多数決の利得が単一最良モデルを下回ることが多いと確認されました。ρが低い多様なモデル群を組み合わせる方が、ρの高い同質モデル群（Self-MoAなど）より情報量が多い状況もありますが、それもβが0に近い領域に限られます。モデルの失敗パターンを類型化する重要性は、ワールドモデルの幻覚は予測できる？MMBench2と3種の失敗モードを解説でも同様に論じられています。

カスケード戦略では、検証器のAUC（正誤判定の精度指標）が0.5に近づくにつれて、ランダム混合に対する優位差が理論的にゼロへ収束することが確認されました。検証器の品質がシステム全体の性能を左右するという、設計上の重要な教訓です。

まとめと今後の展望

本研究は「LLMを組み合わせれば精度が上がる」という通念に、数学的な根拠に基づいた限界を示しました。βという単一指標が組み合わせシステムの天井を規定し、従来のペアワイズ相関はその天井を2.5倍以上過小評価してきたという事実は、システム設計に対する根本的な見直しを促します。

実用面では、βをClopper-Pearson信頼区間で事前に認証することで、「この組み合わせが単一最良モデルを有意に上回れるか」を投資前に判断できる枠組みが提供されます。強力なルーティング信号のない領域では、モデルを増やすコストに見合う効果が得られない可能性があります。

今後の課題としては、βを低減するための多様性定量化手法の開発が挙げられます。単純なペアワイズ相関に代わる共通失敗モードをより正確に捉える新たな指標の設計や、ルーティング信号の自動抽出・強化によってβの壁自体を押し下げるアプローチが、次の研究フロンティアとなるでしょう。

When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

Abstract page for arXiv paper 2606.27288: When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

arxiv.org

LLMを組み合わせても限界がある：67モデル実験で判明した「共同失敗上限」の法則

研究の背景

共同失敗上限（β）の定義

実験設定と主な結果

アンサンブル・ルーティング設計への影響

まとめと今後の展望

関連記事

JetSpec/JetFlowとは？並列ツリードラフトで投機的デコーディングを最大9.64倍高速化

Block-GTQとは？RoPEブロック単位の動的ビット割り当てでKVキャッシュを3.24倍圧縮

iLLaDAとは？12兆トークン学習で拡散型LLMが自己回帰モデルと同等水準を達成

人気記事