- IBM ResearchとHuggingFaceが共同で、ツール選択・計画・メモリ管理を含むエージェントシステム全体を評価する「Open Agent Leaderboard」を公開した
- tau2-Benchの3シナリオ(航空・小売・通信)を含む計6種のベンチマークで評価し、同じモデルでも実装の違いが成功率とコストに明確な差をもたらすことが実証された
- 失敗した実行は成功した実行より20〜54%多くコストがかかることも判明しており、評価フレームワーク「Exgentic」はオープンソースで公開されている
モデル単体では測れない時代
大規模言語モデル(LLM)の性能比較といえば、これまでは単一モデルへの質問応答や推論タスクが中心でした。しかし、実際の業務でAIを使う場面では、モデル単体が動くのではなく、ツール呼び出し・計画立案・メモリ管理・エラーからの回復など複数の仕組みが組み合わさった「エージェントシステム」として動作します。
IBM ResearchとHuggingFaceが2026年5月に公開した「Open Agent Leaderboard」は、この課題に正面から向き合った評価基盤です。同リーダーボードのコアにある主張は明快で、「AIエージェントの性能は内部のモデルだけでなく、どのように構築されたかによって決まる」というものです。
6種のベンチマークで多角的に評価
Open Agent Leaderboardが採用するのは、tau2-Benchの3シナリオ(航空・小売・通信)を含む計6種のベンチマークです。それぞれが異なる問題設定を持ちます。
- SWE-Bench Verified — 実際のコードリポジトリに存在するバグを修正するコーディングタスク
- BrowseComp+ — 複数のWebページをまたいで答えを探す複雑なリサーチタスク
- AppWorld — 数百種類のアプリやAPIを操作して個人タスクを完了するシナリオ
- tau2-Bench(航空・小売・通信の3シナリオ) — 企業ポリシーに従いながらカスタマーサービスやテクニカルサポートを行うシナリオ
コーディング・リサーチ・広範な行動空間・ルール制約のある会話と、実務でAIエージェントに求められる多様な能力を横断的に測定できる設計です。評価時には各ベンチマーク専用の調整を行わず、汎用エージェントとして評価する点が特徴です。

実装の差が性能とコストを左右する
リーダーボードの評価から見えた最も重要な知見は、同じモデルを使っていてもエージェントの実装が異なると成功率もコストも大きく変わるという事実です。トップクラスのシステムを比較したところ、同一モデルを搭載していながらコストが数分の一で済む設定が存在することが確認されました。
さらに、失敗した実行は成功した実行より20〜54%多くコストがかかるという結果も得られています。エラー時の挙動設計がシステム全体のコスト効率を大きく左右するわけです。現時点ではモデル選択が結果の主要因ではあるものの、エージェント設計の影響はすでに無視できないレベルに達しています。
ツール候補を事前に絞り込む「ツールショートリスト」と呼ばれる手法は、テストしたすべてのモデルで成功率を向上させており、失敗していた設定を機能する設定へと変えるケースも見られました。また、ベンチマーク専用に調整した専門エージェントと汎用エージェントを比較したところ、汎用エージェントがすでに同等かそれ以上の性能を発揮するケースも確認されています。エージェントの訓練手法そのものを改善するアプローチと組み合わせることで、こうした差をさらに縮める可能性があります。
オープンウェイトモデルを使った結果も公開されており、特定の組み合わせでは競争力を示しました。一方で、フロンティアの商用モデルと比べると平均18〜29ポイントの差が残っています。
再現可能な評価基盤と参加方法
評価結果の閲覧はHuggingFace上のインタラクティブなリーダーボードで行えます。成功率とコストを2軸にプロットした散布図で、パレート最適なシステムを直感的に把握できます。各行はモデルとエージェント設計の組み合わせを表し、ベンチマーク別の内訳も確認できます。
評価の基盤となる「Exgentic Framework」はオープンソースで公開されており、自分のエージェントを評価・再現するためのプラットフォームとして利用できます。結果はHuggingFaceのデータセットへのプルリクエストで投稿可能で、新しいエージェント・ベンチマーク・モデル(特にオープンウェイト)の貢献が歓迎されています。本リーダーボードの方法論はICLR 2026 Workshopの論文としても発表されており、arXivで全文が公開されています。
