IBMが企業IT向け初のAIエージェントベンチマーク公開 — 全モデルで正解率50%未満

IBMとArtificial Analysisが企業のKubernetesインシデント対応を評価するAIエージェントベンチマーク「ITBench-AA」を初公開した
Claude Opus 4.7が47%で首位に立つも全8モデルが正解率50%未満で、現状のAIエージェントが企業IT業務で直面する壁を定量的に示した
エージェントの試行回数が多いほど正解率が高まるわけではなく、過剰な調査が偽陽性を増加させてスコアを下げる現象が確認された

ITBench-AAとは

IBM ResearchとArtificial Analysisは、企業のITオペレーション業務に特化した初のAIエージェントベンチマーク「ITBench-AA」を公開しました。従来のエージェントベンチマークがコーディング能力や一般的な推論を評価するのに対し、ITBench-AAはSite Reliability Engineering（SRE）と呼ばれる本番システムの信頼性維持業務を評価対象とします。

具体的には、Kubernetesクラスター上で発生したインシデントの根本原因を特定するタスクです。エージェントにはアラート、イベントログ、分散トレース、メトリクス、アプリケーショントポロジといった実際の運用環境と同等の情報が与えられ、障害の起点となったKubernetesリソース（DeploymentやServiceなど）を正確に絞り込むことが求められます。

全モデルが50%未満という結果

リーダーボードに掲載された8モデルの評価結果では、Claude Opus 4.7（Adaptive Reasoningモード）が47%で首位を獲得しました。GPT-5.5（46%）、Qwen3.7 Max（42%）と続き、GLM-5.1とGemini 3.5 Flashが並んで40%、DeepSeek V4 Pro（38%）、Gemma 4 31B（37%）、Gemini 3.1 Pro Preview（30%）という順です。

首位モデルでも正解率47%という結果は、他の主要なエージェントベンチマークでトップモデルが高い飽和状態を示すことが多いのと対照的です。ITBench-AAは実務的な難易度でモデル間の差を測定できる評価基準として機能しています。

評価手法と意外な落とし穴

ベンチマークは59のタスク（公開40件・非公開19件）で構成され、各タスクを3回繰り返した計177回分の平均でスコアを算出します。スコアリングには「完全再現時の平均適合率（Average Precision at Full Recall）」を用い、根本原因を1つでも見落とした場合はそのタスクのスコアが0になります。

この設計で浮かび上がったのが、試行回数と精度の関係です。Gemini 3.1 Pro Previewは平均83回の操作を行いながら正解率30%にとどまりましたが、Gemma 4 31Bは58回で37%を達成しました。調査を重ねるほど根本原因以外の候補を誤って列挙する偽陽性が増え、精度が下がるパターンが確認されています。試行回数の多さが精度向上を保証しないという知見は、エージェントの設計思想に直結します。

コスト効率が示す実用性の幅

評価結果のもう一つの注目点がコスト効率です。Claude Opus 4.7は1タスクあたり約5.38ドルを要するのに対し、Gemma 4 31Bは約0.14ドルで37%のスコアを記録しています。コストは約38分の1ながらスコアの差は10ポイント以下であり、要件によってはオープンウェイトモデルが現実的な選択肢になります。

IBM ResearchはAIエージェントのガバナンスや導入設計に関しても積極的に発信しており、IBMが提示する企業向けAIオペレーティングモデルと組み合わせると、評価基準の整備がIBMの企業AI戦略の重要な柱であることがわかります。客観的な指標なしに導入判断を行うリスクを考えると、ITBench-AAのような専門特化型ベンチマークの意義は大きいと言えます。

今後の展開

IBMとArtificial Analysisは、SREタスクに続いてFinancial Operations（FinOps）とCISO（最高情報セキュリティ責任者）タスクを対象とした評価カテゴリを追加する計画を示しています。企業ITの各専門領域でAIエージェントの実力を継続的に測定できれば、部門ごとの導入可否を根拠ある数値で判断できます。

今回のSREタスクにおけるトップスコア47%は、完全な自律的ITオペレーションには届かない数値です。ただし、診断候補の初期絞り込みや一次調査支援という限定的な役割であれば、現在のモデルでも実用価値を発揮できる可能性があります。FinOpsやCISOタスクの評価カテゴリが追加されれば、部門別の導入検討に具体的な数値根拠が得られます。

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

A Blog post by IBM Research on Hugging Face

huggingface.co

IBMが企業IT向け初のAIエージェントベンチマーク公開 — 全モデルで正解率50%未満

ITBench-AAとは

全モデルが50%未満という結果

評価手法と意外な落とし穴

コスト効率が示す実用性の幅

今後の展開

関連記事

Gemini APIのManaged Agentsが拡張、非同期実行とリモートMCP統合を実現

AnthropicがLLM内の隠れた思考空間「J-space」を発見 — Jacobian lensでAI安全監視に応用

HuggingFace Kernels刷新 — セキュリティ強化とマルチフレームワーク対応

人気記事