- EEE(Every Eval Ever)は2026年2月発足の機関横断プロジェクトで、31種類の報告フォーマットから229,000件の評価結果を統一JSONスキーマで整理した
- 2026年6月30日に発表されたHuggingFaceとの連携により、MMLU-Pro・GPQA・HLE・GSM8Kの評価結果がモデルページに自動表示される仕組みが整備された
- 評価を一から再現するには数十万ドル規模のコストが必要なデータをコミュニティが共有・検証できるプラットフォームとして公開した
評価の混乱という現実
AIモデルを比較する場面では「MMLU 83%」「GPQA Diamond 72%」といったスコアが論文やブログに頻繁に登場します。しかし、Few-shot数やプロンプト形式、温度パラメータ、評価コードのバージョンが異なれば、同じベンチマークでも数値は変わります。現状では31種類もの報告フォーマットが乱立しており、数値を横並びに比較することは難しく、研究者や開発者が信頼できる評価データを探すコストは高いままでした。
この課題に取り組むため、EvalEval Coalitionは2026年2月にEvery Eval Ever(EEE)を立ち上げました。そして2026年6月30日、HuggingFaceとの正式な連携が発表され、評価標準化への取り組みが新たな段階に入りました。機関の枠を越えて評価結果の報告方法を統一する、初の組織横断的な試みです。
22万件の評価結果を一元集約
EEEのデータストアには現在、31種類の異なる報告フォーマットから収集した229,000件の評価結果が格納されています。対象モデルは22,000以上にのぼり、カバーするベンチマークは2,200種類です。これらの評価を一から再現するには数十万ドル規模のコンピュートコストが必要と推定されており、個々の研究者が独自に再現することは現実的ではありません。
EEEが定義する統一JSONスキーマは、実行者の身元、対象モデル、アクセス方法(API・ローカル等)、生成設定(温度・最大トークン数など)、メトリクスの定義、そしてサンプルごとの出力(JSONL形式での記録を推奨)を一つのフォーマットで管理します。「どの条件で測定したスコアか」を後から追跡できる状態を担保することが目的です。
モデルを横断して評価結果を正確に比較するには、一貫したデータ形式が前提となります。67モデルを対象にした研究ではLLMを組み合わせても性能の上限が存在する「共同失敗上限」が明らかになっていますが、こうした分析が成立するのも、比較可能な形式で揃った評価データがあるためです。EEEのデータストアはその基盤を整えるものです。
モデルページへの自動反映
HuggingFaceとの連携により、EEEのスキーマで記録した評価結果を両プラットフォームへ同時送信できます。コンバーター機能がEEEレコードからHuggingFaceの必要とするYAMLファイルへ自動変換するため、投稿者が両フォーマットを別々に用意する手間はありません。現時点でモデルページへの自動反映に対応しているベンチマークは、MMLU-Pro、GPQA、HLE、GSM8Kの4種類です。
提出前の検証プロセス
評価結果の信頼性を維持するため、提出前には複数の監査チェックが自動実行されます。スコアの競合(既存データと矛盾する数値)や不足しているモデルリポジトリが検出された場合はアラートが出ます。ユーザーが内容を確認して明示的に承認した後にのみプルリクエストが作成され、モデルページへの反映が完了します。自動化と人間による確認を組み合わせた設計です。
今後の展望
EEEは現在もコミュニティからの評価結果を受け付けており、対応ベンチマークの拡充を継続しています。統一スキーマが広く採用されることで、異なる研究グループや企業が出した評価結果を同じ基準で比較できる環境が整っていきます。今後の課題は、提出内容の正確性を担保する検証体制をいかにスケールさせるかにあります。
AIモデルの評価基盤を整えることは、研究の再現性を高めるだけでなく、モデル選定における意思決定の質を上げる意味もあります。HuggingFaceという大規模プラットフォームとの連携によって、コミュニティ主導の評価エコシステムが具体的な形になりつつあります。
