- 成功したタスク解決を実行可能なPythonコードで保存・再利用し、テキスト経験記録が抱える信頼性の問題を根本から解決するアプローチ
- インストール・自己進化・デプロイの3段階ライフサイクルで動作し、サブエージェントライブラリが継続的に成長・改善する設計
- 30タスクの実験でトークン消費を約57%削減(7,022→2,971トークン)し、GitHubでオープンソース公開済み
研究の背景
LLMエージェントは自律的に複雑なタスクを実行する能力を持ちますが、従来の手法には共通の課題がありました。ReActなど多くのアプローチでは、過去の経験をテキスト形式のプロンプトやログとして蓄積します。しかし、この方法には根本的な問題があります。テキストで記録された経験は実際に動作するかどうかの保証がなく、内容の正確性や実行可能性を担保するのが難しいのです。
また、類似タスクに対しても毎回ゼロから推論し直す必要があり、蓄積した経験を効率よく活かせない点も課題です。このような「テキスト記録の信頼性問題」と「知識の再利用コスト」を同時に解決するために、北京大学などの研究グループが提案したのが「AgentFactory」です。従来のテキスト中心のアプローチとは一線を画し、成功したタスク解決を実行可能なPythonコード(サブエージェント)として保存・再利用するパラダイムを採用しています。
AgentFactoryの仕組み
AgentFactoryは3段階のライフサイクルで動作します。インストールフェーズでは、メタエージェントが受け取った複雑な問題を複数の部分問題に分解し、各部分問題を解決するサブエージェントを動的に生成します。生成されたサブエージェントは実行フィードバックを受けながら繰り返し改善されます。
自己進化フェーズでは、ライブラリに蓄積された既存のサブエージェントを検索・評価し、現在のタスクに合わせて改良を加えます。類似タスクへの汎用性を高めるよう洗練されるため、ライブラリが大きくなるほど新たなタスク解決にかかる計算コストが下がっていきます。この「使うほど賢くなる」設計がフレームワークの中核です。
最後のデプロイフェーズでは、完成したサブエージェントが標準化されたドキュメント付きのスタンドアロンPythonモジュールとしてエクスポートされます。任意のPython環境で移植・実行できる設計であり、他のシステムへの組み込みも容易です。

システムアーキテクチャ
システムは3つの主要コンポーネントで構成されています。メタエージェントは問題の分解と、各部分問題へのサブエージェントの割り当てを担う司令塔です。スキルシステムは3層構造になっており、サブエージェントの生成・修正を行うメタスキル、Web検索やブラウザ操作など外部ツールを扱うツールスキル、ライブラリに蓄積されたサブエージェントスキルで構成されます。ワークスペース管理者はタスク実行に必要な分離された実行環境を提供します。
サブエージェントは単なる一時的なコードスニペットではなく、標準化されたインターフェースと文書化を備えた再利用可能なモジュールです。コーディング、情報検索、データ分析など幅広い領域のタスクに対応しており、ライブラリとして積み重なることでフレームワーク全体の解決能力が段階的に向上します。

実験で示された効果
研究チームは30タスク(バッチ1: 15タスク、バッチ2: 15タスク)でAgentFactoryを評価しました。バッチ2はバッチ1と構造が同じでありながら具体的な要件が異なるタスク群です。バッチ1で蓄積されたサブエージェントがバッチ2でどれだけ活用されるかを測定することで、知識の転移性を検証しています。
消費トークン数を比較すると、Claude Opus 4.6を使用した場合、従来のReActアプローチとテキスト形式で経験を保存するSelf-Evolving Agentはいずれも平均7,022トークンを要しています。一方、AgentFactoryでは2,971トークンに削減されており、約57%の削減率を達成しています。蓄積されたサブエージェントを再利用することで、推論コストを大幅に抑えられることが示されました。
再利用可能なツールをエージェントに組み込む設計は他の研究でも注目されており、NVIDIAのAIエージェントが採用した再利用可能ツール生成の実践手法もその一例です。AgentFactoryはツール単体ではなくタスク解決全体をサブエージェントとして蓄積する点で、より包括的なアプローチを取っています。
まとめと今後の展望
AgentFactoryは、LLMエージェントが成功したタスク解決を実行可能なコードとして蓄積・再利用することで、信頼性の高い自己進化を実現するフレームワークです。テキスト記録の限界を乗り越え、消費トークンの削減という実用的な効果も実験で示されました。GitHubでオープンソースとして公開されており、再現性や実用への応用も容易です。
課題としては、現状の評価が30タスクにとどまっており、より多様なドメインや大規模な設定での検証が求められます。ライブラリが大規模化した際のサブエージェント検索効率や品質管理、サブエージェント間の競合や依存関係の処理も今後の研究テーマとして残っています。コードとして知識を蓄積するパラダイムは、AIエージェントが自律的に能力を拡張する設計の実践的な方向性を示しており、実用的なAIエージェント開発の設計指針として注目される研究成果です。

