- Codexはサンドボックス境界とAuto-reviewモードを組み合わせ、低リスク操作は自動承認、高リスク操作は人間がレビューする承認フローを実現する
- ネットワークポリシーで接続先ドメインを明示制御し、認証情報はOSキーリングとChatGPTエンタープライズワークスペースに紐付けて保護する
- OpenTelemetryベースのエージェント固有ログで操作の「意図」まで追跡可能な監査証跡を確立し、AIセキュリティトリアージとの統合も可能にする
Codex安全運用の基本方針
OpenAIは2026年5月8日、コーディングエージェント「Codex」を社内でどのように安全に運用しているかを公式ブログで詳説した。Codexはリポジトリの閲覧、コマンドの実行、開発ツールとの連携を自律的に行えるため、従来の人間による直接実行とは異なるガバナンスの仕組みが必要になる。
OpenAI社内での方針は3点に整理できる。エージェントを明確な技術的境界の内側に閉じ込めること、日常的な低リスク操作は摩擦なく実行すること、高リスクな操作は人間の確認を明示的に求めることだ。加えて、エージェントが何をしたかを事後に説明できるテレメトリを常に保持する。この原則がCodexの設計全体を貫いている。
サンドボックスと承認ポリシー
Codexの実行環境はサンドボックスと承認ポリシーの2層で構成される。サンドボックスはCodexが書き込めるパス、ネットワーク到達範囲、保護対象ディレクトリを技術的に制限する実行境界だ。承認ポリシーは、サンドボックス外の操作が必要になったときにCodexが許可を求める判断基準を定義し、ユーザーは操作単位またはセッション単位で承認できる。
日常の承認負荷を下げる仕組みがAuto-reviewモードだ。このモードを有効にすると、Codexが実行予定の操作と直近のコンテキストをAuto-review用のサブエージェントに送信し、低リスクと判定された操作は開発者を介さずに自動承認する。想定外の結果をもたらしうる高リスク操作はこのフィルタを通過できず、人間のレビューへ誘導される仕組みだ。

ネットワークと認証情報の管理
OpenAIはCodexに対してオープンエンドの外部通信を許可していない。設定ファイルでアクセスを許可するドメインと拒否するドメインを明示し、未知のドメインへのアクセスは承認を要求する構成をとる。ウェブ検索もOpenAIのキャッシュ経由のみに限定することで、意図しない外部サービスへの通信を排除している。
認証情報の管理も厳格だ。CLIおよびMCPのOAuth認証情報はOSのセキュアキーリングに格納し、ログインはChatGPT経由を強制する。さらに特定のChatGPTエンタープライズワークスペースIDへのアクセスを固定することで、Codexの利用をワークスペースレベルのアクセス制御に統合し、ChatGPT Compliance Logs Platformへの記録も自動で行われる。
ルールとマネージド設定
コマンドレベルでもきめ細かな制御が可能だ。日常的な開発作業で多用する読み取り専用コマンド(gh pr viewやkubectl getなど)はサンドボックス外でも承認なしで許可し、危険なコマンドはブロックまたは承認必須とするルールをファイルに定義できる。これにより、Codexが通常の開発フローを停止させることなく動作しつつ、意図しないシステム変更を防止できる。
設定はクラウド管理型の「requirements」ファイルとローカルの「config」ファイルを組み合わせて適用する。requirementsはユーザーが上書きできない管理者強制の制御であり、configはチームや環境ごとに異なる構成を柔軟にテストするための手段だ。この設定はデスクトップアプリ、CLI、IDE拡張を含むすべてのCodexサーフェスに横断的に適用される。
エージェント固有のテレメトリ
統制だけでは不十分で、展開後の可視性も欠かせない。従来のセキュリティログはプロセスの起動やファイル変更といった「何が起きたか」は記録できる。しかし、エージェントが「なぜその操作をしたのか」という意図まで記録するには専用の仕組みが必要になる。
CodexはOpenTelemetry(OTel)形式でのログエクスポートをサポートしており、ユーザーのプロンプト、ツール承認の判断、ツール実行結果、MCPサーバーの利用状況、ネットワークプロキシの許可・拒否イベントをすべて構造化データとして出力できる。これらのログはSecurity Information and Event Management(SIEM)やコンプライアンスログ基盤に集約でき、エンタープライズ・教育機関向けにはOpenAI Compliance Platformからも参照可能だ。
AIトリアージへの統合
OpenAI社内では、このOTelログをエンドポイントセキュリティツールと組み合わせて運用している。エンドポイントアラートがCodexの不審な動作を検知した場合、Codexのログが元のリクエスト、ツール操作、承認決定、ネットワークポリシーの判断を補足説明する形で機能する。
さらにAIセキュリティトリアージエージェントがこれらのログを解析し、「想定内のエージェント動作」「無害な誤操作」「真に調査が必要なインシデント」の3区分に振り分けてセキュリティチームに提示する。OpenAIはGPT-5.5-Cyberの開発でもAI支援によるセキュリティ知識の自動循環フレームワークを構築しており、AIによるセキュリティ運用の強化という方向性は一貫している。
エンタープライズ環境でのAIエージェント導入において、Codexが示したアプローチはひとつの実践的な参照点になりうる。サンドボックス設計、承認フロー、ネットワーク制御、テレメトリを組み合わせることで、開発者の生産性とセキュリティ統制の両立が実現できる。