Open Agent Leaderboard公開 — 同一モデルでも実装差で性能が変わる

IBM ResearchとHuggingFaceが共同で、ツール選択・計画・メモリ管理を含むエージェントシステム全体を評価する「Open Agent Leaderboard」を公開した
tau2-Benchの3シナリオ（航空・小売・通信）を含む計6種のベンチマークで評価し、同じモデルでも実装の違いが成功率とコストに明確な差をもたらすことが実証された
失敗した実行は成功した実行より20〜54%多くコストがかかることも判明しており、評価フレームワーク「Exgentic」はオープンソースで公開されている

モデル単体では測れない時代

大規模言語モデル（LLM）の性能比較といえば、これまでは単一モデルへの質問応答や推論タスクが中心でした。しかし、実際の業務でAIを使う場面では、モデル単体が動くのではなく、ツール呼び出し・計画立案・メモリ管理・エラーからの回復など複数の仕組みが組み合わさった「エージェントシステム」として動作します。

IBM ResearchとHuggingFaceが2026年5月に公開した「Open Agent Leaderboard」は、この課題に正面から向き合った評価基盤です。同リーダーボードのコアにある主張は明快で、「AIエージェントの性能は内部のモデルだけでなく、どのように構築されたかによって決まる」というものです。

6種のベンチマークで多角的に評価

Open Agent Leaderboardが採用するのは、tau2-Benchの3シナリオ（航空・小売・通信）を含む計6種のベンチマークです。それぞれが異なる問題設定を持ちます。

SWE-Bench Verified — 実際のコードリポジトリに存在するバグを修正するコーディングタスク
BrowseComp+ — 複数のWebページをまたいで答えを探す複雑なリサーチタスク
AppWorld — 数百種類のアプリやAPIを操作して個人タスクを完了するシナリオ
tau2-Bench（航空・小売・通信の3シナリオ） — 企業ポリシーに従いながらカスタマーサービスやテクニカルサポートを行うシナリオ

コーディング・リサーチ・広範な行動空間・ルール制約のある会話と、実務でAIエージェントに求められる多様な能力を横断的に測定できる設計です。評価時には各ベンチマーク専用の調整を行わず、汎用エージェントとして評価する点が特徴です。

図1: Open Agent Leaderboardが採用するtau2-Benchの3シナリオを含む計6種の評価ベンチマーク

実装の差が性能とコストを左右する

リーダーボードの評価から見えた最も重要な知見は、同じモデルを使っていてもエージェントの実装が異なると成功率もコストも大きく変わるという事実です。トップクラスのシステムを比較したところ、同一モデルを搭載していながらコストが数分の一で済む設定が存在することが確認されました。

さらに、失敗した実行は成功した実行より20〜54%多くコストがかかるという結果も得られています。エラー時の挙動設計がシステム全体のコスト効率を大きく左右するわけです。現時点ではモデル選択が結果の主要因ではあるものの、エージェント設計の影響はすでに無視できないレベルに達しています。

ツール候補を事前に絞り込む「ツールショートリスト」と呼ばれる手法は、テストしたすべてのモデルで成功率を向上させており、失敗していた設定を機能する設定へと変えるケースも見られました。また、ベンチマーク専用に調整した専門エージェントと汎用エージェントを比較したところ、汎用エージェントがすでに同等かそれ以上の性能を発揮するケースも確認されています。エージェントの訓練手法そのものを改善するアプローチと組み合わせることで、こうした差をさらに縮める可能性があります。

オープンウェイトモデルを使った結果も公開されており、特定の組み合わせでは競争力を示しました。一方で、フロンティアの商用モデルと比べると平均18〜29ポイントの差が残っています。

再現可能な評価基盤と参加方法

評価結果の閲覧はHuggingFace上のインタラクティブなリーダーボードで行えます。成功率とコストを2軸にプロットした散布図で、パレート最適なシステムを直感的に把握できます。各行はモデルとエージェント設計の組み合わせを表し、ベンチマーク別の内訳も確認できます。

評価の基盤となる「Exgentic Framework」はオープンソースで公開されており、自分のエージェントを評価・再現するためのプラットフォームとして利用できます。結果はHuggingFaceのデータセットへのプルリクエストで投稿可能で、新しいエージェント・ベンチマーク・モデル（特にオープンウェイト）の貢献が歓迎されています。本リーダーボードの方法論はICLR 2026 Workshopの論文としても発表されており、arXivで全文が公開されています。

The Open Agent Leaderboard

A Blog post by IBM Research on Hugging Face

huggingface.co

Open Agent Leaderboard公開 — 同一モデルでも実装差で性能が変わる

モデル単体では測れない時代

6種のベンチマークで多角的に評価

実装の差が性能とコストを左右する

再現可能な評価基盤と参加方法

関連記事

川崎重工・ファナック・安川電機がGENIACで連携、触覚統合VTLAモデルのデータセットを共同構築

人型ロボットが量産ラインで64時間連続稼働 — AGIBOTが作業成功率99.99%を実証

Anthropic、科学研究向け自律AIエージェント「Claude Science」を発表 — 創薬・計算生物学に特化

人気記事