OpenAI、新AIベンチマーク「SWE-Lancer」公開！

OpenAI、新AI評価基準「SWE-Lancer」公開
AIの業務遂行能力、最大40%にとどまる
ベンチマークのオープンソース化で研究促進

※ AIによる要約

OpenAIは2月18日、AIモデルのコーディング性能を評価するための新たなベンチマーク「SWE-Lancer」を公開。

このツールは、フリーランスのソフトウェアエンジニアが実際に受注する業務をもとに、AIがどこまで実務に対応できるかを測定する目的で開発されたとのこと。

Today we’re launching SWE-Lancer—a new, more realistic benchmark to evaluate the coding performance of AI models. SWE-Lancer includes over 1,400 freelance software engineering tasks from Upwork, valued at $1 million USD total in real-world payouts. https://t.co/c3pFcL41uK
— OpenAI (@OpenAI) February 18, 2025

SWE-Lancerには、フリーランス業務のプラットフォーム「Upwork」から集められた1,400を超えるタスクが含まれており、総額で100万ドル（約1億5000万円）相当の報酬が設定。タスクの内容は、50ドル（約7500円）のバグ修正から、3万2000ドル（約480万円）の機能実装まで幅広く、UI/UX設計からシステムデザインまでエンジニアリング全般をカバーする設計となっています。

さらに、AIが技術的な実装方針を選択する「管理タスク」も含まれており、実際のエンジニアリング業務に求められる判断力も評価の対象。

OpenAIは、SWE-Lancerを用いて最新の大規模言語モデルをテストした結果を報告。GPT-4oやClaude 3.5 Sonnetなどのモデルを対象に評価を行ったが、100万ドル相当のタスクのうち、AIが遂行できたのは約30万ドル（約4500万円）から40万ドル（約6000万円）分にとどまったといいます。これにより、現時点ではエンジニアが担う業務の大半をAIだけで代替することは困難であることが確認されました。

OpenAIは、SWE-Lancerのソースコードをオープンソースとして公開することで、研究者や開発者がAIの進化に関するさらなる研究を進められるよう支援。ソースコードはGitHub上で確認できる。

⇒詳細はこちら（OpenAI公式HPより）