EvoArenaとは？動的環境でLLMエージェントを評価するメモリ進化追跡フレームワーク

ターミナル・ソフトウェア・ソーシャルの3領域で環境が段階的に変化するベンチマークEvoArenaを構築。最先端エージェントでも平均正解率は39.6%にとどまることを実証した
記憶の変化をパッチ形式の構造化された更新履歴として記録するEvoMemを提案し、動的な環境変化への適応力を強化する
EvoMemにより標準ベンチマークのGAIA+6.1%・LoCoMo+4.8%の改善を達成し、動的環境に対応するエージェント設計の指針を提示

研究の背景と課題

近年、大規模言語モデル（LLM）を基盤とするAIエージェントは、さまざまなベンチマークで人間に匹敵する成果を上げています。しかし既存の評価の多くは、テスト環境が固定された静的な設定を前提としています。

実際の運用環境では、ソフトウェアは更新され、ユーザーの好みは変わり、システムの制約は日々変化します。静的な評価で高い成績を収めたエージェントが、こうした変化に対応できるかどうかは別の問題です。本研究はこの「静的評価と動的実環境のギャップ」を埋めるため、EvoArenaとEvoMemという2つの貢献を提案します。

自律的なAIエージェントの設計については、仮説ツリーを使った自律研究フレームワークArborのような多様なアプローチが研究されていますが、動的に変化する環境に焦点を当てた評価基盤はまだ不足していました。

EvoArenaの構成

EvoArenaは、静的な既存ベンチマークを「バージョン付き進化チェーン」へと変換する評価の枠組みです。エージェントは単に最新バージョンを解けるだけでなく、過去の動作を壊さずに新しい変化へ適応できるかどうかが問われます。

3つのドメインはそれぞれ異なる種類の環境変化をカバーしています。

Terminal-Bench-Evo: 89のターミナル操作タスクを352の進化版に変換。I/Oプロトコルの変更（49.1%）やCLI/API修正（10.5%）など、実行環境の制約が段階的に変化する設定
SWE-Chain-Evo: 12のオープンソースリポジトリから50の進化チェーン（493ステップ）を構築。機能追加・バグ修正・依存関係の移行など、実際のソフトウェア開発過程を再現
PersonaMem-Evo: 10人のペルソナの会話履歴から505の設問を生成。ユーザーの好みが時間とともに変化する中で、最新の状態を正確に把握できるかをテスト

評価は「ステップ精度」（各バージョンを個別に解けるか）と「チェーン精度」（全バージョンを連続して正しく解けるか）の2軸で行われます。チェーン精度はより厳密な指標で、チェーンの途中で一度でも失敗するとゼロと評価されます。

EvoMemの仕組み

現在のエージェントが動的環境に弱い根本原因の一つは、記憶の管理方法にあります。情報が書き換えられると、なぜ・どのように変化したかの履歴が失われてしまいます。

EvoMemはこの問題に対し、パッチ形式の追記型履歴という仕組みで対処します。記憶が更新されるたびに「変更前の内容」「変更後の内容」「更新の理由」「根拠となる文脈」を1つのパッチとして記録します。推論時には最新の記憶に加えて関連する過去のパッチを参照することで、環境変化の文脈を維持しながら判断を下せます。

図2: EvoMemの概要。基盤となる記憶システムに追記型パッチ履歴を追加し、行動的に重要な記憶の更新を記録。推論時にバージョン付き証拠として関連パッチを取得する

EvoMemはTerminus2・OpenHands・A-Mem・Memento-Skillという4種類の既存エージェントに適用されています。追加学習を必要とせず、記憶層への介入だけで機能するため、既存システムへの統合が比較的容易な点が実用的な強みです。

実験結果

EvoArenaで代表的なエージェントを評価したところ、平均ステップ精度は39.6%にとどまりました。より厳しいチェーン精度では、Terminal-Bench-Evoが21.5%、SWE-Chain-Evoはわずか10.6%と、環境の変化が連続するとエージェントの性能が大きく低下することが示されました。

図3: EvoArenaにおけるステップ精度とチェーン精度の関係。右上が理想。最先端エージェントであってもチェーン精度が大幅に低下することが示されている

EvoMemの導入効果はEvoArena上でも確認できます。ステップ精度はTerminal-Bench-Evoで+2.4%、SWE-Chain-Evoで+0.5%、PersonaMem-Evoで+1.8%改善しました。チェーン精度での改善幅はさらに大きく、パッチ履歴が連続した推論の一貫性を保つ上で有効であることが示されています。

標準的なエージェントベンチマークに対してもEvoMemを適用した結果、GAIAで平均+6.1%、LoCoMoで+4.8%の改善が得られました。動的環境専用の訓練を行わなくても、記憶の更新履歴を保持するだけで汎用的な性能向上に貢献することが確認されています。

まとめと今後の展望

EvoArenaは、動的な環境変化に対するLLMエージェントの弱点を体系的に可視化した評価基盤です。ターミナル・ソフトウェア・ソーシャルという3つの異なる領域で「変化に適応しながら過去の動作を維持できるか」を問う設計は、実運用シナリオへの評価の橋渡しとなっています。

EvoMemは追加学習なしで既存の記憶システムに統合できる実用性を示しましたが、平均正解率39.6%という結果は、動的環境への対応が依然として大きな研究課題であることを物語っています。今後はパッチ取得の精度向上や、より長期的な環境変化への対応、リアルタイムでの記憶更新戦略など、多くの発展の余地が残されています。