- OpenAIが2026年2月23日、コーディングAI評価の業界標準「SWE-bench Verified」のスコア報告を公式停止
- 審査した問題の59.4%にテスト欠陥が判明、GPT-5.2・Claude Opus 4.5・Gemini 3 Flashで深刻な学習データ汚染を確認
- 当面の代替として「SWE-bench Pro」を推奨し、長期的には専門家が非公開で作成する独自評価ベンチマークの重要性を訴求
評価廃止の背景
OpenAIは2026年2月23日、コーディングAIの能力を測る業界標準ベンチマーク「SWE-bench Verified」のスコア報告を公式に停止すると発表しました。2024年8月の公開以来、フロンティアモデルのリリースに際して各社が一斉に報告してきた指標が、わずか1年半でその信頼性の限界に達したことになります。
同ベンチマークはオープンソースのGitHubリポジトリから収集したバグ修正タスク500問で構成されており、モデルが問題文とリポジトリのコードだけを見て正しいコード変更を生成できるかを評価します。最近6ヶ月間の最高精度は74.9%から80.9%への小幅な改善にとどまっており、OpenAIがこの停滞の原因を調査した結果、二つの深刻な問題が浮かび上がりました。
テストケースの欠陥
OpenAIはモデルが安定して解けない138問題を対象に、経験豊富なソフトウェアエンジニア6名以上による独立した審査を実施しました。その結果、審査した問題の59.4%にテスト設計または問題記述の重大な欠陥が判明しました。具体的には「狭いテスト」と「広いテスト」の二種類に分類されます。
狭いテスト(35.5%)とは、問題文には記載されていない具体的な関数名やメソッド名を要求するもので、機能的に正しい実装であっても不合格にしてしまいます。たとえばpylintのバグ修正タスクでは、問題文に記述のない get_annotation という関数名をテストが直接インポートしようとするため、別名で実装すると即座にエラーが発生します。広いテスト(18.8%)は逆に、問題文が一つの不具合のみを扱っているにもかかわらず、別の不具合修正も含む複数のテストを適用するものです。残り5.1%はこれらに分類できない雑多な問題でした。
学習データへの汚染
もう一つの問題が、学習データへの汚染(contamination)です。SWE-bench Verifiedは公開されているオープンソースリポジトリを出典としているため、多くのモデル開発者が訓練データに組み込んでいる可能性があります。OpenAIはこれを「試験直前に問題と解答を生徒に配布する行為」と表現し、その実態を自動検出実験で調べました。
GPT-5をプローブ役として、GPT-5.2、Claude Opus 4.5、Gemini 3 Flash Previewの3モデルに対し15回のやり取りの中で記憶を引き出す実験を行いました。その結果、すべてのモデルで深刻な汚染が確認されました。GPT-5.2はわずかなヒントから特定のDjangoバグ修正の完全なコード差分を再現し、Claude Opus 4.5はコード内のインラインコメントを一字一句引用しました。Gemini 3 Flashはタスクの問題文と正解パッチをほぼそのまま出力する場面も見られました。
この汚染はテスト欠陥と組み合わさることで問題が倍加します。問題文に明示されていない関数名や実装詳細を「記憶」しているモデルは、欠陥のあるテストを偶然パスできてしまいます。スコアの向上が実力の改善ではなく学習データへのベンチマーク包含率を反映している可能性が高い、というのがOpenAIの結論です。
代替指標と今後の方針
OpenAIはSWE-bench Verifiedのスコア報告を停止するとともに、当面の代替として「SWE-bench Pro」の公開スプリットを推奨しています。数学コンペ「First Proof」への挑戦と同様に、OpenAIは評価の正確性をAI能力計測の核心と位置づけており、SWE-bench Proでも一部汚染の兆候は確認されたものの、完全なgold patchを再現するような重大ケースは有意に少ないとされます。
長期的には、専門家が非公開で問題を独自に作成し人間の採点者が評価する方式が必要だとOpenAIは訴えます。自社で開発した「GDPVal」はこの方針に基づいており、汚染リスクを構造的に排除しています。ただしこのアプローチはコストが高く、業界全体への普及には時間がかかります。
今回の廃止決定が示す評価設計の教訓は三点にまとめられます。公開データを使う場合は汚染検証とcanary stringによるフィルタリングを徹底すること、テストは実装詳細に依存しない機能的正確さを検証すること、そして問題文のスコープを超えた要求をテストに含めないことです。AIの実力を正確に測る手段そのものの信頼性を維持することが、今後のベンチマーク設計における共通課題となっています。