Agent-Worldとは？MCPで1,978環境を自律合成し商用モデルを超える自己進化型エージェント

MCPを活用した深層調査エージェントがウェブから1,978環境・19,822ツールを自律合成し、大規模なエージェント訓練基盤を構築
評価・診断・タスク合成・RL更新を繰り返す自己進化ループで、モデルの能力ギャップを動的に特定して継続学習を実現
Agent-World-14BはMCP-Mark・BFCL V4・τ²-Benchを含む23ベンチマークでGPT-4oなど強力な商用モデルを上回ることを確認

研究の背景と課題

大規模言語モデル（LLM）を実世界のエージェントとして機能させるには、ツール操作・外部サービス連携・複数ステップの意思決定を網羅する多様な訓練環境が不可欠です。しかし従来の手法では、環境の数と種類が限られており、特定ドメインには強くても汎用的な能力を持つエージェントを育てにくいという課題がありました。

人手で環境を整備するアプローチはコストが高く、スケールが難しいのも事実です。そこでByteDance Seedの研究チームは、環境構築そのものをAIに自動化させるという発想のもと、自己進化型の訓練フレームワーク「Agent-World」を開発しました。

Agent-Worldの全体設計

Agent-Worldは2つの主要コンポーネントから構成されます。1つ目は実世界環境を自律的に発見・合成する「Environment-Task Discovery」、2つ目はエージェントが自らの弱点を発見して学習を深める「Self-Evolving Training Loop（自己進化型訓練ループ）」です。

図1: Agent-Worldのシステム構成。左がEnvironment-Task Discovery、右がSelf-Evolving Training Loopを示す

両コンポーネントが連携することで、環境とエージェントが共進化し続ける訓練基盤が実現します。訓練が進むにつれて環境データベースは拡張され、モデルは継続的により高度なタスクに挑戦し続けます。

環境・タスクの自律合成

Environment-Task Discoveryでは、まずMCPサーバー仕様・オープンソースツール文書・産業向けPRD（製品要求仕様書）の3種類のソースから環境テーマを収集します。その後、深層調査エージェントがウェブ上の関連データベースを自動探索し、実行可能なツールインターフェースを生成します。

タスク合成には2つの方式を使い分けています。グラフベース合成ではツール間の依存関係を有向グラフでモデル化し、ランダムウォークにより現実的な実行シーケンスを生成します。プログラム合成では条件分岐やループを含む複雑な制御フローをPythonスクリプトとして出力します。この仕組みにより、最終的に1,978環境・19,822ツールという大規模なデータベースが構築されました。各タスクは平均20ターン以上のやり取りを要し、難易度も段階的に調整できます。

自己進化型の訓練ループ

Self-Evolving Training Loopは3つのステップを繰り返します。まず新しいタスクで現在のポリシーを「評価」し、次に実行トレースから弱点となっている環境を「診断」します。最後に診断結果に基づいて環境を拡張し、ターゲットタスクを合成して強化学習（RL）で「継続学習」します。

このサイクルを複数ラウンド回すことで、モデルは苦手な領域を自動的に発見し、集中的に訓練を重ねることができます。強化学習における多様性の維持はエージェント訓練の根本的な課題であり、Agent-Worldはタスク合成と自己診断の組み合わせによってこの問題に取り組んでいます。人手でカリキュラムを設計する必要がなく、スケーラブルに能力を伸ばせる点が大きな特徴です。

実験結果とスケーリング則

Agent-World-8Bと14Bの2モデルを、MCP-Mark・BFCL V4・τ²-Benchを含む23の挑戦的なエージェントベンチマークで評価しました。Agent-World-14BはBFCL V4で55.8%、τ²-Benchで65.4%を記録し、GPT-4oやQwen3-235B-A22Bを上回りました。特にMCP-Markでは他モデルが5〜6%台にとどまる中、Agent-World-14Bが13.3%を達成しています。