OpenSWEとは？45,320のDocker環境を自動合成しSWE-bench Verified 66%を達成する訓練基盤

研究の背景

ソフトウェアエンジニアリング（SWE）エージェントの訓練には、実際のリポジトリで動作する大規模な実行環境が不可欠です。しかし、既存のオープンソースデータセットは規模と多様性に限界があり、商用ソリューションに対抗できる訓練基盤が不足していました。

本研究では、この課題を解決するため、12,800以上のリポジトリから45,320個の実行可能なDocker環境を自動生成する「daVinci-Env」を開発しました。これにより、実用的なAIエージェント開発に必要な大規模訓練データを、完全にオープンソースで提供します。

daVinci-Envの核心は、64ノードの分散クラスタ上で動作するマルチエージェント合成パイプラインです。このシステムは5段階のプロセスで環境を自動生成します。

まず、GitHub Pull Requestを収集し、4段階のフィルタリング（デプロイ可能性、自動化可能性、リポジトリ一意性、依存性解析）を適用します。次に、承認されたリポジトリを探索してDockerfileを構築し、評価スクリプトを生成して反復的にテスト分析を行います。

この自動化により、人手では到底不可能な規模での環境構築を実現しました。生成された各Docker環境には、ビルド手順、テストスクリプト、依存関係が完全に記録されています。

45,320個の環境全てが訓練に適しているわけではありません。daVinci-Envは品質中心のフィルタリングアプローチを採用し、各環境の固有の難易度を特性化します。

解決不可能または過度に単純なインスタンスを除外することで、最終的に9,000個の品質保証された訓練環境を抽出しました。このフィルタリングにより、エージェントの学習効率が大幅に向上します。

フィルタリング基準には、テストカバレッジ、コード複雑度、解決可能性の評価が含まれます。これにより、訓練データの質と訓練効率の両方を最適化しました。

daVinci-Envで訓練したOpenSWE-72Bは、SWE-bench Verifiedで66.0%のスコアを達成しました。これは、オープンソースモデルとして商用ソリューションに匹敵する水準です。

さらに、OpenSWE-32Bは62.4%を記録し、Qwen2.5シリーズの中でState-of-the-artを達成しました。数学的推論では最大12ポイント、科学ベンチマークでは5ポイントの改善が確認されています。

これらの結果は、大規模で多様な実行環境での訓練が、SWEエージェントの性能向上に直接寄与することを実証しています。約147万ドルの投資により、9,000個の品質保証環境から13,000個のキュレーション済み軌跡を生成しました。

本研究の最大の貢献は、全てのインフラをオープンソース化したことです。Dockerfile、評価スクリプト、訓練パイプラインが完全に公開されており、学術再現性が極めて高い設計となっています。

これにより、独占的な商用ソリューションへの対抗手段として、研究コミュニティに大きな影響を与えることが期待されます。誰でもdaVinci-Envを使用してSWEエージェントの訓練を開始できるため、AI駆動型ソフトウェア開発の民主化が進むでしょう。

今後は、環境の多様性をさらに拡大し、より複雑なタスクに対応できる訓練データの整備が期待されます。また、訓練効率のさらなる向上や、他のプログラミング言語への対応も重要な研究課題となります。