OpenAI、推論・翻訳・文字起こし対応の新リアルタイム音声モデルをAPIで公開

GPT-Realtime-2はGPT-5クラスの推論能力を持ち、コンテキスト窓を32Kから128Kへ拡大して長時間・複雑なエージェントワークフローに対応
GPT-Realtime-Translateは70言語以上の入力と13言語への出力でリアルタイム多言語翻訳を実現し、Deutsche TelekomやVimeoが採用を発表
GPT-Realtime-Whisperは発話に追いつく低遅延ストリーミング文字起こしで会議字幕やカスタマーサポートへの組み込みを想定

3つの新リアルタイム音声モデル

OpenAIは2026年5月7日、Realtime APIに3種の新音声モデルを追加した。GPT-Realtime-2（推論対応の会話モデル）、GPT-Realtime-Translate（リアルタイム多言語翻訳）、GPT-Realtime-Whisper（ストリーミング音声文字起こし）の3モデルで、開発者はこれらを組み合わせることで、従来は実現が難しかったクラスの音声アプリを構築できます。

従来のリアルタイム音声APIは、発話と応答の折り返し速度や音声品質に主眼が置かれていました。今回のモデル群はその土台の上に「推論」「翻訳」「文字起こし」をリアルタイムで加え、音声インターフェースが実際に仕事をこなせる水準を目指したものです。

音声AIの3実装パターン

OpenAIは開発者が取り組む音声AIの実装パターンを3種類に整理しています。第1はVoice-to-actionで、ユーザーが口頭で要望を伝え、モデルが推論してツールを呼び出しタスクを完了するものです。不動産サービスのZillowは「BuyAbilityの範囲で静かな通りの物件を探し、土曜日の内見を予約して」という自然言語の依頼に対応するアシスタントを構築中です。

第2はSystems-to-voiceで、ソフトウェア側のコンテキストを音声ガイダンスに変換するパターンです。旅行アプリが乗り継ぎ便のゲートやルートを先回りして案内するといった使い方が想定されます。第3はVoice-to-voiceで、異なる言語の話者をリアルタイムで仲介するパターンです。Deutsche Telekomはこのモデルを使い、顧客が自分の言語で話せる多言語サポートを構築中です。

GPT-Realtime-2の技術的な改善点

GPT-Realtime-2は前世代のGPT-Realtime-1.5と比べて複数の実測値で改善を示しています。音声推論能力を評価するBig Bench Audioで15.2%、多段階会話でのインストラクション追従を評価するAudio MultiChallengeで13.8%それぞれ上回りました。Zillowの本番評価では、最も難しいテストケースにおける通話成功率が69%から95%へ26ポイント改善した実績も報告されています。

技術面での主な変更点は4点あります。コンテキスト窓が32Kトークンから128Kトークンへ拡大され、長時間の商談や複雑なエージェントワークフローに対応します。推論強度はminimal・low・medium・high・xhighの5段階で切り替えられ、単純な問い合わせでは低遅延を優先しつつ、複雑な依頼には深い推論を割り当てられます。複数ツールの並行呼び出しにも対応し、処理中に「カレンダーを確認しています」と短く告げるPreamble機能もON/OFFできます。このようなリアルタイム音声の低遅延インフラ設計については、OpenAIの音声AI向けWebRTC再設計とは？低遅延インフラの仕組みを解説で詳しく解説しています。

翻訳と文字起こしの専用モデル

GPT-Realtime-Translateは70言語以上の音声入力を13言語にリアルタイムで変換します。インドの音声AIサービスBolnaAIによると、ヒンディー語・タミル語・テルグ語を対象とした評価でWord Error Rate（単語誤り率）が他の最良モデルと比べて12.5%低く、タスク完了率と自然な会話速度の両立も確認されています。Vimeoは製品説明動画を再生しながら多言語に変換し、字幕制作の待ち時間を省くユースケースを公開しました。

GPT-Realtime-Whisperは、話者の発話に追いつきながら文字起こしを出力するストリーミング音声認識モデルです。会議のリアルタイム字幕、カスタマーサポートの通話メモ、医療・採用・営業などの高頻度音声ワークフローへの組み込みを主な用途として想定しています。

料金と利用開始方法

3モデルの料金は以下のとおりです。

GPT-Realtime-2: 音声入力100万トークンあたり32ドル（キャッシュ済み入力は0.40ドル）、音声出力100万トークンあたり64ドル
GPT-Realtime-Translate: 1分あたり0.034ドル
GPT-Realtime-Whisper: 1分あたり0.017ドル

いずれもRealtime APIから利用でき、OpenAI Playgroundで試用できます。EUデータレジデンシーに対応しており、EU域内のデータを域外に転送しない運用も選択可能です。セーフティ面では、有害コンテンツガイドラインに違反するセッションをアクティブな分類器が検出して停止する仕組みが組み込まれています。

Advancing voice intelligence with new models in the API

Explore new realtime voice models in the OpenAI API that can reason, translate, and transcribe speech, enabling more natural and intelligent voice experiences.

openai.com

3つの新リアルタイム音声モデル

音声AIの3実装パターン

図1: OpenAIが整理した音声AIの3実装パターン

GPT-Realtime-2の技術的な改善点

翻訳と文字起こしの専用モデル

料金と利用開始方法

3モデルの料金は以下のとおりです。

GPT-Realtime-2: 音声入力100万トークンあたり32ドル（キャッシュ済み入力は0.40ドル）、音声出力100万トークンあたり64ドル

GPT-Realtime-Translate: 1分あたり0.034ドル

GPT-Realtime-Whisper: 1分あたり0.017ドル

Advancing voice intelligence with new models in the API

Explore new realtime voice models in the OpenAI API that can reason, translate, and transcribe speech, enabling more natural and intelligent voice experiences.

openai.com

OpenAI、推論・翻訳・文字起こし対応の新リアルタイム音声モデルをAPIで公開

3つの新リアルタイム音声モデル

音声AIの3実装パターン

GPT-Realtime-2の技術的な改善点

翻訳と文字起こしの専用モデル

料金と利用開始方法

OpenAI、推論・翻訳・文字起こし対応の新リアルタイム音声モデルをAPIで公開

3つの新リアルタイム音声モデル

音声AIの3実装パターン

GPT-Realtime-2の技術的な改善点

翻訳と文字起こしの専用モデル

料金と利用開始方法

関連記事

AlphaEvolveとは？GeminiベースのAIがアルゴリズムを自律進化させ実インフラで実績

OpenAI「MRC」とは？AI訓練クラスタの耐障害性を高める新ネットワークプロトコル

ChatGPTのデフォルトモデルがGPT-5.5 Instantに、ハルシネーション52.5%削減

人気記事