- MCPを活用した深層調査エージェントがウェブから1,978環境・19,822ツールを自律合成し、大規模なエージェント訓練基盤を構築
- 評価・診断・タスク合成・RL更新を繰り返す自己進化ループで、モデルの能力ギャップを動的に特定して継続学習を実現
- Agent-World-14BはMCP-Mark・BFCL V4・τ²-Benchを含む23ベンチマークでGPT-4oなど強力な商用モデルを上回ることを確認
研究の背景と課題
大規模言語モデル(LLM)を実世界のエージェントとして機能させるには、ツール操作・外部サービス連携・複数ステップの意思決定を網羅する多様な訓練環境が不可欠です。しかし従来の手法では、環境の数と種類が限られており、特定ドメインには強くても汎用的な能力を持つエージェントを育てにくいという課題がありました。
人手で環境を整備するアプローチはコストが高く、スケールが難しいのも事実です。そこでByteDance Seedの研究チームは、環境構築そのものをAIに自動化させるという発想のもと、自己進化型の訓練フレームワーク「Agent-World」を開発しました。
Agent-Worldの全体設計
Agent-Worldは2つの主要コンポーネントから構成されます。1つ目は実世界環境を自律的に発見・合成する「Environment-Task Discovery」、2つ目はエージェントが自らの弱点を発見して学習を深める「Self-Evolving Training Loop(自己進化型訓練ループ)」です。

両コンポーネントが連携することで、環境とエージェントが共進化し続ける訓練基盤が実現します。訓練が進むにつれて環境データベースは拡張され、モデルは継続的により高度なタスクに挑戦し続けます。
環境・タスクの自律合成
Environment-Task Discoveryでは、まずMCPサーバー仕様・オープンソースツール文書・産業向けPRD(製品要求仕様書)の3種類のソースから環境テーマを収集します。その後、深層調査エージェントがウェブ上の関連データベースを自動探索し、実行可能なツールインターフェースを生成します。
タスク合成には2つの方式を使い分けています。グラフベース合成ではツール間の依存関係を有向グラフでモデル化し、ランダムウォークにより現実的な実行シーケンスを生成します。プログラム合成では条件分岐やループを含む複雑な制御フローをPythonスクリプトとして出力します。この仕組みにより、最終的に1,978環境・19,822ツールという大規模なデータベースが構築されました。各タスクは平均20ターン以上のやり取りを要し、難易度も段階的に調整できます。
自己進化型の訓練ループ
Self-Evolving Training Loopは3つのステップを繰り返します。まず新しいタスクで現在のポリシーを「評価」し、次に実行トレースから弱点となっている環境を「診断」します。最後に診断結果に基づいて環境を拡張し、ターゲットタスクを合成して強化学習(RL)で「継続学習」します。
このサイクルを複数ラウンド回すことで、モデルは苦手な領域を自動的に発見し、集中的に訓練を重ねることができます。強化学習における多様性の維持はエージェント訓練の根本的な課題であり、Agent-Worldはタスク合成と自己診断の組み合わせによってこの問題に取り組んでいます。人手でカリキュラムを設計する必要がなく、スケーラブルに能力を伸ばせる点が大きな特徴です。
実験結果とスケーリング則
Agent-World-8Bと14Bの2モデルを、MCP-Mark・BFCL V4・τ²-Benchを含む23の挑戦的なエージェントベンチマークで評価しました。Agent-World-14BはBFCL V4で55.8%、τ²-Benchで65.4%を記録し、GPT-4oやQwen3-235B-A22Bを上回りました。特にMCP-Markでは他モデルが5〜6%台にとどまる中、Agent-World-14Bが13.3%を達成しています。

環境数と性能の間に明確なスケーリング則が確認されたことも重要な成果です。環境数が増えるほど性能は向上し、自己進化のラウンドを重ねるごとにも追加的な性能改善が得られます。ただし改善幅はラウンドが進むにつれて逓減する傾向があり、今後の効率的な学習設計が重要な課題として残ります。
まとめと今後の展望
Agent-Worldは、環境構築から訓練・評価・再合成までを自律的に循環させる訓練パラダイムを提示しました。MCPというオープンプロトコルを通じてウェブ上のツールエコシステムを直接取り込む設計は、環境規模の拡大を継続的に進められる基盤となります。
一方で、合成された環境の品質管理や実世界タスクへの転移性については引き続き検証が必要です。商用モデルを上回るオープンなエージェントモデルの登場は、研究コミュニティにとって有益な比較基準をもたらすと同時に、自律的な環境合成と自己改善を組み合わせた訓練手法の可能性を広く示すものとなりました。
