OpenAI、GPT-5.5を発表 — エージェントと科学研究でSOTA達成

エージェントコーディング評価Terminal-Bench 2.0で世界最高スコア82.7%を達成、前世代GPT-5.4の75.1%から7.6pp向上
ARC-AGI-2での抽象推論スコアが73.3%から85.0%へ前世代比+11.7pp改善、1Mトークン長文脈性能も大幅向上
API標準価格は入力$5/1Mトークン・出力$30/1Mトークン、ChatGPT・Codexへの即日ロールアウトが開始

GPT-5.5の概要

OpenAIは2026年4月23日、新世代モデル「GPT-5.5」を発表しました。エージェントコーディング、コンピューター操作、ナレッジワーク、科学研究という4領域で前世代のGPT-5.4を大きく上回り、最大1Mトークンのコンテキストウィンドウでの性能も劇的に改善されています。前世代と同等のトークン生成速度を維持しながら知性水準を引き上げた点が際立っており、大規模モデルで速度が落ちがちな課題に対して異なるアプローチを示しています。

同社は「最もスマートで直感的なモデル」と位置づけており、多段階タスクを自律的に計画・実行し、曖昧な状況でも判断を続ける能力が向上したと説明しています。ChatGPT・Codexでは同等タスクをより少ないトークンで完了できることも確認されており、性能と効率性を両立した設計となっています。

エージェントコーディングの性能

コマンドラインの複雑なワークフローを評価するTerminal-Bench 2.0で、GPT-5.5は82.7%を達成しました。前世代GPT-5.4の75.1%、Claude Opus 4.7の69.4%、Gemini 3.1 Proの68.5%をいずれも上回り、現時点で最高水準のスコアとなっています。実際のGitHub Issue解決を測るSWE-Bench Proでは58.6%、長時間コーディングタスクを評価する社内指標Expert-SWEでは73.1%（前世代68.5%）を記録しました。

Codexユーザーからは、大規模コードベースの文脈を長く保持しながら問題の根本原因を推論する能力が改善されたという声が多く寄せられています。Cursorの共同創業者Michael Truell氏は「GPT-5.5はGPT-5.4より明確に賢く粘り強く、複雑な長時間タスクで差がつく」とコメントしています。早期アクセスを試みたNVIDIAのエンジニアからは「GPT-5.5へのアクセスを失うのは手足を失うようだ」という評価も挙がっており、実務レベルでの有用性が際立っています。

長文脈と抽象推論の改善

長文脈処理の改善は特に顕著です。1Mトークンのコンテキストを使ったGraphwalks BFS評価で、GPT-5.4が9.4%にとどまっていたのに対し、GPT-5.5は45.4%を記録しました。約5倍の改善幅は、大規模なコードベースや長大な文書を扱う実務ユースケースへの直接的な恩恵を意味します。

抽象推論ベンチマークのARC-AGI-2（Verified）では85.0%を達成しました。前世代の73.3%から11.7pp向上しており、Gemini 3.1 Proの77.1%、Claude Opus 4.7の75.8%をいずれも上回っています。数学の難問を集めたFrontierMath Tier 4でも35.4%（前世代27.1%）と8pp以上の向上を記録しており、推論深度の改善が複数の評価指標で一貫して確認されています。

科学研究支援の実績

遺伝学・定量生物学の多段階解析を測るGeneBenchでは25.0%（前世代19.0%）、バイオインフォマティクス評価BixBenchでは80.5%（前世代74.0%）を達成しています。イムノロジー研究者のDerya Unutmaz氏は、62サンプル・約2万8000遺伝子のデータセット解析にGPT-5.5 Proを活用し、主要な知見と今後の研究課題を含む詳細なレポートを生成したと報告しています。同氏によれば、これは研究チームが数カ月かけて行う作業に匹敵する内容とのことです。

さらに注目されるのは、カスタムハーネスを組み合わせた内部バージョンのGPT-5.5が、Ramsey数に関する新定理の証明発見に貢献したことです。Ramsey数は組合せ論の中心的な研究対象で、ネットワークがある規模に達すると必ず特定の秩序が現れるまでの閾値を扱う概念です。この証明は後に数学証明検証システムLeanで正式に検証されており、コード補助を超えた数学的発見への直接貢献という稀有な事例として研究者から注目されています。

推論効率とインフラ設計

GPT-5.5はNVIDIA GB200・GB300 NVL72システムとの共設計を通じて推論効率を追求しました。強化されたCodexの機能を活用し、ロードバランシングと分割ヒューリスティックを最適化した結果、トークン生成速度が20%以上向上しています。このアルゴリズム自体もCodexとGPT-5.5が開発に直接関与しており、モデルが自身の推論インフラ改善を支援するというユニークな開発形態が実現しています。

提供開始と料金体系

GPT-5.5は2026年4月23日より、ChatGPT・CodexのPlus・Pro・Business・Enterpriseプランへのロールアウトが開始されています。APIは近日中に提供予定で、標準価格は入力$5/1Mトークン・出力$30/1Mトークン、コンテキストウィンドウは1Mトークンとなります。バッチ・Flex処理は標準価格の半額、優先処理は2.5倍の料金設定です。より高精度なバリアントGPT-5.5 Proは、入力$30/1M・出力$180/1Mトークンで提供予定となっています。

OpenAIは「GPT-5.5はGPT-5.4より価格は高いが、より少ないトークンで同等タスクを完了できるため実質コストは改善される」と説明しています。サイバーセキュリティ能力については同社のPreparedness Frameworkで「High」に分類されており、悪用リスクへの対応として厳格な分類システムが新たに導入されています。

https://openai.com/index/introducing-gpt-5-5