2026/06/07 14:19

OpenAIのRealtime API、音声AIを3本立てへ整理

OpenAIのRealtime関連ドキュメントをいま読み直すと、Realtimeはもう単一の「音声で話せるAPI」ではありません。音声対話は`gpt-realtime-2`、ライブ翻訳は`gpt-realtime-translate`、リアルタイム文字起こしは`gpt-realtime-whisper`と役割を分け、セッション設計や移行手順まで別物として整理し始めたのが今回の重要点です。

OpenAI Developersの記事画像
画像: OpenAI Developers

会話・翻訳・文字起こしで入口が分かれた

OpenAI DevelopersのRealtime and audioガイドは、最初に『何を作りたいか』から入る構成に変わっています。低遅延の音声エージェントなら`gpt-realtime-2`、ライブ翻訳なら`gpt-realtime-translate`、ライブ音声の文字起こしなら`gpt-realtime-whisper`と、目的ごとに別の入口を案内しています。ひとつのRealtimeモデルで何でもこなす説明ではなく、用途別に専用レーンを引き始めた形です。

OpenAI DevelopersのRealtime APIガイド
画像: OpenAI Developers

特に翻訳は通常の会話セッションではなく専用の翻訳セッションとして扱われ、音声が流れ込んでいる最中に翻訳音声と字幕差分を返す設計です。文字起こしも、モデルが返答を話す面ではなく、ライブ音声から低遅延のトランスクリプト差分を取る面として整理されています。Realtimeは『音声I/O付きチャット』から、『用途別の音声基盤』へ姿を変えつつあります。

Realtime 2は低遅延のまま推論とツール利用を強めた

`gpt-realtime-2`のモデルページでは、Realtime 2を「最も高性能なリアルタイム音声モデル」と位置づけ、推論量を調整できること、指示追従とツール利用の信頼性が上がっていることを前面に出しています。Realtime and audioガイドも、音声対話の既定値として`reasoning.effort`を`low`から始めるよう勧めており、単なる速度競争ではなく、どこまで思考させるかをレイテンシと一緒に設計する前提が見えます。

一方で翻訳と文字起こしのモデルページは、どちらも音声時間ベースの課金で、返すものも明確に限定されています。`gpt-realtime-translate`は翻訳音声と字幕差分、`gpt-realtime-whisper`は低遅延の文字起こし差分が中心です。OpenAIはRealtime全体を万能モデル1本で押すのではなく、会話・翻訳・文字起こしで期待される挙動と価格の単位まで分け始めています。

旧Realtimeからの移行はプロンプトの移植で済まない

OpenAIのRealtime prompting guideは、旧Realtimeモデルから移るときに『プロンプトをそのまま移植するな』とかなり強く書いています。新しいガイドに沿ってプロンプトを再構成し、`reasoning.effort`をまず`low`に置き、ツール名、パラメータ、列挙値、JSON schemaを見直し、古い例を捨てて会話例を入れ直すべきだという整理です。Realtime 2では、プロンプトは単なる文面ではなく、挙動を決める仕様書に近い扱いになっています。

Realtime and audioガイドのGA移行項目も、旧ベータ時代のままでは済まないことを示しています。ベータ用ヘッダーの削除、クライアントシークレットの発行、セッション形状やイベント名の更新など、接続の足回りまで変更が入っています。ここから見えるのは、新モデル追加よりむしろ『音声体験をどのレーンで作るかを最初に決め、その前提で設計し直す』段階にOpenAIが入ったということです。

Realtimeの3レーン
用途主なモデル / 面読むべき点
音声対話エージェント`gpt-realtime-2`推論量とツール利用を調整しながら低遅延の会話を作る
ライブ翻訳`gpt-realtime-translate`専用の翻訳セッションで、入力中の音声に対して翻訳音声と字幕差分を返す
リアルタイム文字起こし`gpt-realtime-whisper`返答音声ではなく、低遅延の文字起こし差分取得に最適化されている

Realtimeの変化で重要なのは、音声AIが一段と賢くなったことだけではありません。OpenAIが音声対話、翻訳、文字起こしを別の製品面として切り分け、モデル、課金、移行手順まで用途別に整理し始めたことです。これからRealtimeを使う開発者は、『どのモデルを使うか』より先に、『何をさせたい音声体験なのか』を決める必要があります。