- GPT-5.3-Codexのコーディング能力と汎用推論を統合し、コンピューター操作・100万トークンコンテキスト・ツール検索をネイティブサポートした初のフロンティアモデル
- OSWorld-Verifiedでデスクトップ操作成功率75.0%を達成し、人間の基準値72.4%を初めて上回る業界最高水準のコンピューター操作能力を実現
- ツール検索機能により大規模MCPサーバー利用時のトークン使用量が47%削減され、エージェント開発の費用対効果が大幅改善
コーディングと操作を1モデルに統合
OpenAIは2026年3月5日、新フラグシップモデル「GPT-5.4」を発表した。ChatGPT(「GPT-5.4 Thinking」として提供)、API、Codexに順次展開されており、プロフェッショナルな業務に向けた「最高性能かつ最高効率のフロンティアモデル」と位置づけられている。
GPT-5.4の最大の特徴は、これまで別々のモデルで提供されてきた機能を1つに統合した点にある。GPT-5.3-Codexが持つ業界最高水準のコーディング能力を引き継ぎながら、コンピューター操作・ツール検索・100万トークンのコンテキストウィンドウをネイティブでサポートする初の汎用推論モデルとなった。なお、GPT-5.4はGPT-5.2と比較してトークン効率が大幅に改善されており、同等の問題を解く際のトークン消費量が削減されている点も特徴の一つだ。
知識業務でプロを超える精度
GPT-5.4は、知識業務のベンチマーク「GDPval」で83.0%を達成した。これは44職種・9産業にわたる実務的な作業(営業プレゼン、会計スプレッドシート、診療スケジュールなど)の出力品質を専門家と比較したもので、GPT-5.2の70.9%から大幅に向上している。
スプレッドシート分野での改善も顕著だ。投資銀行のジュニアアナリストが行うような財務モデリングタスクの内部ベンチマークでは、GPT-5.4が87.3%の平均スコアを記録し、GPT-5.2の68.4%を約19ポイント上回った。プレゼンテーション資料についても、人間の評価者が68.0%の確率でGPT-5.4の出力をGPT-5.2より高品質と判断したと報告されている。
幻覚(Hallucination)抑制においても改善が見られる。事実誤りのあるプロンプトを分析した結果、GPT-5.4では個別の主張が誤りである確率が33%低下し、回答全体に誤りが含まれる確率が18%低下している。OpenAIはGPT-5.4を「これまでで最も事実に基づいたモデル」と表現している。

コンピューター操作で人間を超える
GPT-5.4は、汎用推論モデルとして初めてネイティブなコンピューター操作(Computer Use)能力を持つ。スクリーンショットとキーボード・マウス操作を介してデスクトップ環境を操作するベンチマーク「OSWorld-Verified」で75.0%の成功率を達成し、GPT-5.2の47.3%を大幅に超えるとともに、人間のパフォーマンス基準値72.4%をも上回った。
ブラウザ操作の評価でも優れた結果が出ている。WebArena-Verifiedでは67.3%、Online-Mind2Webではスクリーンショットのみの観察で92.8%の成功率を記録した。APIでは`computer`ツールを通じてこれらの機能にアクセスでき、開発者はリスクレベルに応じてカスタム確認ポリシーを設定することも可能だ。
コーディング面では、GPT-5.4とPlaywright(Interactive)を組み合わせた実験的なCodexスキルが公開されており、モデルが自身でビルドしながらウェブアプリを視覚的にデバッグする様子も示されている。急成長するAIコーディングツール市場でGPT-5.4のコンピューター操作能力は、エージェント型開発ワークフローを大きく変える可能性がある。Cursorの開発者教育担当VPも「複雑な問題に自信を持って取り組み、作業を並列化しながら前進し続ける」と評価している。
ツール検索で効率を47%改善
GPT-5.4がAPIで導入した「ツール検索(Tool Search)」は、多数のツールを持つエージェントの効率を大幅に改善する機能だ。従来はすべてのツール定義がプロンプトの先頭に含まれていたため、MCPサーバーのように数万トークン分のツール定義を持つシステムでは、毎リクエストごとに大量のトークンが消費されていた。
ツール検索では、GPT-5.4がまず軽量なツールリストを受け取り、実際に必要なタイミングで個別のツール定義を参照する形をとる。Scale社のMCP Atlasベンチマーク250タスクを使った検証では、全36のMCPサーバーを有効にした状態でトークン使用量が47%削減され、精度は同等に保たれたと報告されている。
ウェブ検索精度も向上している。AIエージェントによる難解情報の検索能力を測る「BrowseComp」では、GPT-5.4が82.7%を達成し、GPT-5.2の65.8%から約17ポイント向上した。上位モデルのGPT-5.4 Proは89.3%と現時点での最高記録を更新しており、特定の情報を複数ラウンドにわたって粘り強く検索する能力が改善されたとされている。
価格と提供形態
ChatGPTでは、GPT-5.4 ThinkingがPlus・Team・Proユーザーに提供され、GPT-5.2 Thinkingを置き換える。GPT-5.2 Thinkingは2026年6月5日まで有料ユーザー向けに利用可能で、Enterprise・Eduプランは管理者設定から早期アクセスを有効化できる。また、同日にはChatGPT for Excel アドインも公開されており、Enterpriseユーザーを対象にスプレッドシート機能を強化している。
APIの価格はGPT-5.2(入力$1.75/Mトークン、出力$14/Mトークン)から、GPT-5.4では入力$2.50/Mトークン、出力$15/Mトークンに引き上げられた。バッチ処理・Flex処理では標準料金の半額、優先処理では2倍の料金が適用される。Codexでの100万トークンコンテキストウィンドウは実験的サポートとして提供されており、標準の272Kを超える部分は通常の2倍のレートで使用量がカウントされる。
