- 250名以上の業界専門家と共同設計した1,490タスクを、13産業クラスター・55専門分野にわたって収録した実務特化型ベンチマーク
- 最良構成(GPT-5.5)でも全体合格率は26.2%にとどまり、全17構成の平均合格率はわずか2.6%という厳しい結果
- 「経済的価値の再現」を評価軸に据え、モデル選択がハーネス設計の約3倍の性能差をもたらすことを実証
研究の背景
近年のAIエージェントは、コード補完や知識問答などのベンチマークで高いスコアを記録しています。しかし研究者たちは「ベンチマーク上の勝利が実業務の改善に反映されていない」という乖離を長く指摘してきました。
SWE-benchのようなコード修正型ベンチマークや、GAIA・OSWorldといった汎用エージェント評価は、特定の作業を切り取ったテストに留まりがちです。実際の業務現場で使われる多様なソフトウェアを統合的に操作する能力を測れていないという課題がありました。
こうした背景から、Machines・Kojo Research・Hyperborean AIなどの研究チームが2025年に発表したのが「Agents' Last Exam(ALE)」です。ALEは「そのAIエージェントが実際の業務で経済的価値を生み出せるか」という問いを評価の中心に置いた、新しいベンチマークです。

タスク設計と分類体系
ALEのタスク設計は、米国連邦職業分類(O*NET / SOC 2018)を基準として、非物理産業の13の産業クラスターと55の専門分野をカバーします。250名以上の業界専門家からの提出と受託制作を合わせ、計1,490タスクインスタンスを収録しています。
各タスクは「専門家が数日〜数週間かけて行う業務」を模したワークフローで設計されています。単一スキルのテストではなく、複数ツールを組み合わせた統合的な作業です。計算化学分野では分子動力学シミュレーションの設定と解析、3D制作分野ではBlenderでのリギングとアニメーション出力など、実業務そのままのタスクが含まれています。
タスクは難易度に応じて3段階に分類されます。
- Near-Term(59タスク): 近い将来に解けると想定される課題。継続的な開発評価向け
- Full-Spectrum(55タスク): 全55専門分野を最低1タスクずつカバーする包括的評価セット
- Last-Exam(35タスク): 現時点でほぼすべてのエージェントが解けない最難関タスク群

先行研究との差別化
ベンチマーク比較マップが示すように、既存の代表的ベンチマーク16本を合わせても、ALEの55専門分野のうち13分野しかカバーしていません。ALEは残り42分野を補完し、実業務の多様性を初めて体系的に反映した設計になっています。
従来のベンチマークが「タスクを完了できるか」を問うのに対し、ALEは「その完了が経済的価値に相当するか」という観点で設計されています。作業の成否だけでなく、品質や精度も採点に含まれる点が大きな違いです。
評価パイプラインの仕組み
評価はLinux/Windows仮想マシン(VM)上で実際のソフトウェアを動かして行います。各タスクはタスク仕様ファイル(main.py)で定義され、3フェーズで実行されます。load()でタスクと計算リソースを宣言し、start()でVM環境を初期状態に設定し、evaluate()でエージェントの出力を採点します。
採点には完全一致・ハッシュ値比較・ルーブリック評価・LLMジャッジなど複数の方式を組み合わせます。LLMによる自動採点は検証可能な代替手段がない場合に限定することで、評価の客観性を保っています。

実験結果と主要な知見
17種類のエージェント構成で公開タスクセットを評価した結果、全構成の平均合格率はわずか2.6%でした。最良構成(Codex + GPT-5.5)でも全体合格率は26.2%にとどまっています。難易度別では、最良構成でNear-Termが42.4%、Full-Spectrumが20.0%、Last-Examが8.6%という結果です。

研究から得られた重要な知見として、モデル選択の影響の大きさがあります。固定ハーネス(OpenClaw)でバックボーンモデルを変えた場合の性能差は18.0ポイントに達する一方、固定モデルでハーネスを変えた場合は5.3〜6.0ポイントに留まりました。モデルの選択がハーネス設計の約3倍の影響を持つという結果です。
失敗原因の分析(Claude Code + Opus 4.7)では、失敗の約75%が「タスクの理解と方針立案」に起因していました。専門領域の知識不足によるタスク解釈の誤りや、意図された専門ソフトウェアの代わりにアドホックなスクリプトで代替しようとする傾向が主因です。実行能力よりも専門知識の欠如がボトルネックであるという指摘は、今後のエージェント開発に重要な示唆を与えています。
まとめと今後の展望
ALEは「経済的価値の再現」を評価軸に据えた初の体系的ベンチマークとして、現在のAIエージェントの実力を客観的に数値化しています。最良モデルでも全体26.2%という合格率は、実業務への完全な応用にはまだ大きな課題があることを示しています。
エージェントがスキルを体系的に習得・活用する能力については、OpenSkillのような教師データ不要の自己進化フレームワークとの組み合わせが今後の研究で注目されるでしょう。ALEはGitHubでコードが公開されており、Living Benchmarkとして継続的に更新される予定です。実業務向けAIエージェント開発の基準として、研究コミュニティへ広く普及していくことが期待されます。
