- 64ノード分散クラスタで45,320個のDocker環境を自動合成し、SWEエージェント訓練の環境不足を解消
- 品質中心フィルタリングで9,000個の高品質環境を抽出し、OpenSWE-72BがSWE-bench Verifiedで66.0%を達成
- Dockerfile・評価スクリプト・インフラを全公開し、約147万ドルの投資で完全オープンソース化
研究の背景
ソフトウェアエンジニアリング(SWE)エージェントの訓練には、実際のリポジトリで動作する大規模な実行環境が不可欠です。しかし、既存のオープンソースデータセットは規模と多様性に限界があり、商用ソリューションに対抗できる訓練基盤が不足していました。
本研究では、この課題を解決するため、12,800以上のリポジトリから45,320個の実行可能なDocker環境を自動生成する「daVinci-Env」を開発しました。これにより、実用的なAIエージェント開発に必要な大規模訓練データを、完全にオープンソースで提供します。
マルチエージェント合成パイプライン
daVinci-Envの核心は、64ノードの分散クラスタ上で動作するマルチエージェント合成パイプラインです。このシステムは5段階のプロセスで環境を自動生成します。
まず、GitHub Pull Requestを収集し、4段階のフィルタリング(デプロイ可能性、自動化可能性、リポジトリ一意性、依存性解析)を適用します。次に、承認されたリポジトリを探索してDockerfileを構築し、評価スクリプトを生成して反復的にテスト分析を行います。
この自動化により、人手では到底不可能な規模での環境構築を実現しました。生成された各Docker環境には、ビルド手順、テストスクリプト、依存関係が完全に記録されています。
品質中心フィルタリング
45,320個の環境全てが訓練に適しているわけではありません。daVinci-Envは品質中心のフィルタリングアプローチを採用し、各環境の固有の難易度を特性化します。
解決不可能または過度に単純なインスタンスを除外することで、最終的に9,000個の品質保証された訓練環境を抽出しました。このフィルタリングにより、エージェントの学習効率が大幅に向上します。
フィルタリング基準には、テストカバレッジ、コード複雑度、解決可能性の評価が含まれます。これにより、訓練データの質と訓練効率の両方を最適化しました。
実験結果と性能評価
daVinci-Envで訓練したOpenSWE-72Bは、SWE-bench Verifiedで66.0%のスコアを達成しました。これは、オープンソースモデルとして商用ソリューションに匹敵する水準です。
さらに、OpenSWE-32Bは62.4%を記録し、Qwen2.5シリーズの中でState-of-the-artを達成しました。数学的推論では最大12ポイント、科学ベンチマークでは5ポイントの改善が確認されています。
これらの結果は、大規模で多様な実行環境での訓練が、SWEエージェントの性能向上に直接寄与することを実証しています。約147万ドルの投資により、9,000個の品質保証環境から13,000個のキュレーション済み軌跡を生成しました。
オープンソース化の意義
本研究の最大の貢献は、全てのインフラをオープンソース化したことです。Dockerfile、評価スクリプト、訓練パイプラインが完全に公開されており、学術再現性が極めて高い設計となっています。
これにより、独占的な商用ソリューションへの対抗手段として、研究コミュニティに大きな影響を与えることが期待されます。誰でもdaVinci-Envを使用してSWEエージェントの訓練を開始できるため、AI駆動型ソフトウェア開発の民主化が進むでしょう。
今後は、環境の多様性をさらに拡大し、より複雑なタスクに対応できる訓練データの整備が期待されます。また、訓練効率のさらなる向上や、他のプログラミング言語への対応も重要な研究課題となります。

