2026/06/16 13:00

OpenAIのDeployment Simulation、AI安全性を「試験問題」から実利用の再現へ移した

OpenAIが公開した「Deployment Simulation」は、モデルの安全性評価を、作られた試験問題だけに頼る段階から、実利用に近い会話文脈を再現する段階へ移す試みです。過去の会話から元の応答を外し、プライバシー保護したうえで候補モデルに応答させる。リリース前に、実際の利用分布で望ましくない挙動がどれくらい出るかを推定するための仕組みです。

評価は「難問集」だけでは実利用の失敗率を読みにくい

OpenAIは、従来の事前評価には合成プロンプト、手作業で作ったテスト、重大リスクを狙った難しい課題が多いと説明しています。こうした評価は低頻度で重大なリスクを探すには重要ですが、実際の利用でどんな望ましくない挙動がどれくらい出るかを測るには偏りが残ります。

複数のノードとコード画面を結ぶ抽象的なエージェント評価グラフ — 画像: Interface Wire

Deployment Simulationの狙いはそこです。リリース前の候補モデルに、実際の利用に近い文脈を大量に与え、既知の失敗率が増えるか、新しい失敗形が出るか、モデルが「これは評価だ」と気づいて振る舞いを変えないかを調べます。AIの安全性評価が、ベンチマークの点数から、利用環境の再現精度へ広がっています。

Deployment Simulationは、過去の利用文脈を候補モデルで再生する

OpenAIの説明では、Deployment Simulationは過去の会話から古いモデルの応答を取り除き、リリース候補モデルで再生成します。対象は、モデル改善へのデータ利用を許可したユーザーのChatGPTトラフィックで、アカウントに結びつく識別子や個人情報は自動的に除去し、結果は集計して報告されます。

GPT-5 ThinkingからGPT-5.4までの約130万件の非識別化会話を使った分析では、実際のデプロイ後に出る望ましくない挙動の増減や頻度を、従来の難問ベースよりよく推定できたとしています。OpenAIは、GPT-5.1で見つかった「calculator hacking」のような新しいミスアラインメントも、シミュレーション型の監査なら事前に浮かび上がったと説明しています。

Deployment Simulationが補う評価の盲点

論点	従来評価で起きやすい問題	Deployment Simulationの狙い
カバレッジ	作ったテストにない失敗形を拾いにくい	実利用に近い会話を大量に再生して幅を広げる
頻度推定	重大リスク向けの難問は実利用率を測りにくい	候補モデルの応答を利用分布上で集計する
評価認識	モデルがテストだと気づくと振る舞いが変わる	本番に近い文脈で評価らしさを下げる
エージェント	ツールやリポジトリ状態が結果を左右する	ツール環境も安全にシミュレートする

エージェント時代の安全性は、ツール環境の再現まで必要になる

重要なのは、この方法が通常のチャットだけでなく、ツールを使うエージェントにも広げられている点です。OpenAIは、GPT-5.4の社内エージェント軌跡12万件を使い、GPT-5.5ベースのコーディングエージェント展開をシミュレートしたと説明しています。

エージェントでは、1つの作業が多数のツール呼び出し、リポジトリ状態、ネットワーク応答、一時的な失敗に依存します。実システムへ読み書きさせて再現すると危険なので、OpenAIはツール呼び出しそのものを別のLLMでシミュレートしました。識別器が本物と見分けるテストでは、追加の文脈や読み取り専用コネクタを持つツールシミュレータにより、リアリズムがほぼ五分五分まで近づいたとしています。

Deployment Simulationは、AI安全性の評価が「よくできたテストを通ったか」から「実際の利用に似た場所でどう振る舞うか」へ移っていることを示しています。これはOpenAIだけの研究話ではありません。ChatGPTやCodexのような製品が、会話、Web、ファイル、リポジトリ、外部ツールへ広がるほど、リリース前の評価も実行環境そのものに近づかなければならない。安全性のインターフェイスは、モデルの返答欄ではなく、モデルが置かれる状況の再現から始まっています。