- OpenAIが2026年6月16日、実際のユーザー会話データをもとにリリース前のAI挙動を予測する評価手法「Deployment Simulation」を公式ブログで発表した
- 約130万件の匿名化会話データをGPT-5シリーズに適用し、問題発生率の予測誤差が中央値1.5倍以内に収まることを確認
- コーディングエージェント向けの拡張も開発済みで、LLMによるツール呼び出し模倣によりシミュレーション結果が実際のサンプルとほぼ区別できないレベルに達した
リリース前のAI挙動を予測する新手法
OpenAIは2026年6月16日、公式ブログにて新しい安全評価手法「Deployment Simulation(デプロイメント・シミュレーション)」を発表しました。同社が社内の評価プロセスにすでに導入済みのこの手法は、新しいモデルをリリースする前に、実際の本番環境と同等の条件でAIの挙動を予測することを目的としています。詳細はOpenAIの公式ブログで確認できます。
AIモデルの安全性評価では従来、研究者が設計したベンチマークやレッドチーミング(意図的な悪用を試みて問題を洗い出す手法)が中心でした。しかし、これらの手法はユーザーが実際にどのようなメッセージを送るかを十分に再現できないという課題を抱えています。研究室環境では問題が見つからなくても、実運用で大量のユーザーと対話すると予期しない問題が表面化するケースが業界全体で繰り返し報告されてきました。Deployment Simulationはその課題に正面から向き合うアプローチです。
技術的な仕組み
本手法の核心は、過去の実際のユーザー会話を「再生」するというシンプルな考え方です。具体的には、本番環境から収集した会話ログのうち元のアシスタントの応答だけを取り除き、評価対象の候補モデルに同じユーザーメッセージを送信して応答を生成させます。
OpenAIの開発チームは、生成された応答を自動採点ツールで評価し、有害発言率や応答精度スコアなどの指標をもとに問題のある応答の発生率を算出します。この発生率から、本番環境でユーザー1万件あたりに問題が何件発生するかを予測する仕組みです。GPT-5シリーズへの適用では、2025年8月から2026年3月にかけて収集した約130万件の匿名化会話データを使用し、予測値と実際のデプロイ後の数値の差が中央値で1.5倍以内に収まることを確認しています。

従来手法との違いと限界
従来のベンチマーク評価は、研究者があらかじめ用意した質問セットに対するモデルの正答率を測るものが主流でした。この方法では実際のユーザーが送る多様なメッセージパターンを十分に網羅することが難しく、想定外の文脈や言い回し、複数ターンにわたる複雑な会話への対応力は評価しにくいという限界がありました。また、テキスト単体のベンチマークでは、特定のユーザー層が好んで使う表現やトピックの分布も反映されません。Deployment Simulationは実際の会話データを使うことで、ユーザーの自然な言語パターンや文脈依存の質問も評価対象に含めることができます。
一方で本手法にも明確な限界があります。OpenAIによると、この手法で検出できるのは「20万件のメッセージに1回以上の頻度で発生する問題」に限られます。ごくまれな問題行動や特定の状況でのみ表れる脆弱性の検出には向かないため、レッドチーミングや手動の安全評価と組み合わせた利用が前提となっています。
エージェント向けの拡張
Deployment Simulationはテキスト会話にとどまらず、コーディングエージェントなどのアクション実行型AIにも対応できるよう拡張されています。エージェントがコードを実行したりAPIを呼び出したりする場面では、実際のツール実行は安全面やコスト面でリスクを伴います。OpenAIは、ツール呼び出しの結果を別のLLMに模倣させることで、実行リスクを排除した安全なシミュレーション環境を構築しました。
この拡張の有効性を測るため、シミュレーションで生成した会話が実際のサンプルと区別できるかを判定するモデル(識別器)を用いた評価を実施しました。識別器の正解率はシミュレーション導入前の11.6%からランダム推測に近い49.5%へと変化し、シミュレーション結果と実際の会話がほぼ区別できないレベルに達しました。OpenAIはソフトバンクとの協業による企業向けAI脆弱性診断サービスでも安全性向上に取り組んでおり、モデル評価から運用保護まで多面的な安全施策を同時に進めています。