2026/06/24 12:08

OpenAIのmoderation scores、AI安全判定を生成レスポンスの中へ入れた

OpenAI Developersの6月4日付API changelogは、Responses APIとChat Completions APIにmoderation scoresを追加したと示しました。生成リクエストにmoderation objectを渡すと、モデル入力と生成出力の両方についてmoderation resultsを同じレスポンスで受け取れる。これは、安全判定を別のAPI呼び出しとして横に置く設計から、AIが何を受け取り、何を返したかを一つの結果オブジェクトで扱う設計への小さな移動です。

OpenAI Developersの記事画像
画像: OpenAI Developers

入力と出力の安全判定が、同じ生成結果に入る

changelogが示した更新は、omni-moderation-latestとv1/responses、v1/chat/completionsに関するものです。ポイントは、generation requestの中でmoderation objectを渡すと、model inputとgenerated outputの両方についてmoderation resultsを受け取れることです。

OpenAI Developersの公式ページ画像
画像: OpenAI Developers

これまで安全判定は、入力を先にModeration APIへ投げる、出力後にもう一度チェックする、あるいはアプリ側ログと別々に突き合わせる設計になりがちでした。今回の更新は、生成結果そのものに入力側と出力側のスコアを載せられるため、回答本文、拒否理由、表示可否、ログを同じレスポンス単位で扱いやすくします。

Interface Wire的に見ると、これはAI安全性がポリシー文書の裏側から、プロダクトの結果UIへ近づいた更新です。危険そうな入力だったのか、生成後の出力が危険寄りだったのか、どちらも同じ操作の記録として残るなら、ユーザーに何を見せ、管理者に何を見せ、どこで止めるかを細かく設計できます。

安全UIは、ブロックだけでなく説明と記録の問題になる

OpenAIのSafety best practicesは、アプリ側で入力側と出力側のガードレールを組み合わせ、モデルへの依存を一枚岩にしないことを勧めています。今回のmoderation scoresは、その考え方を生成フローの中で扱いやすくする部品です。

たとえばチャット、検索、社内エージェント、ユーザー投稿の要約では、すべてを即座に拒否するだけでは体験が粗くなります。入力側が危険なら追加確認を出す、出力側が危険なら文面を差し替える、境界値なら人間レビューに回す。スコアがレスポンスに同梱されれば、その分岐をUIや監査ログに結びつけやすくなります。

重要なのは、スコアがそのまま最終判断になるわけではない点です。カテゴリ、しきい値、地域、年齢、サービスの文脈によって、同じスコアでも扱いは変わります。AIアプリの設計者は、モデルが返した文章だけでなく、その文章を表示してよい理由、表示しない理由、あとで確認できる記録まで含めて画面を作る必要があります。

単独Moderation APIは、画像や事前判定の役割を残す

今回の更新でModeration APIが不要になるわけではありません。Moderation guideは、生成を伴わないstandalone input classificationとして、テキストだけでなく画像とテキストをomni-moderation-latestで分類する例を示しています。

つまり使い分けは残ります。ユーザーがアップロードした画像、投稿フォーム、プロフィール、検索クエリの事前審査は、単独のModeration APIで処理するほうが自然な場面があります。一方、生成AIの返答をユーザーへ出す瞬間には、generation APIのレスポンス内で入力と出力の安全結果をそろえて持てるほうが扱いやすい。

小さなAPI更新に見えますが、AIアプリの操作面では意味があります。安全判定が別処理に散らばるほど、ユーザーには唐突な拒否に見え、運用者にはあとから追いにくいログになります。生成レスポンスにmoderation resultsが入るなら、安全性は『呼び出し前後のチェック』から『1回の会話ターンに紐づく状態』へ近づきます。

OpenAIのmoderation scores追加は、派手な新モデル発表ではありません。ただ、AIプロダクトの作り方には効く更新です。入力と出力の安全判定を同じ生成結果で扱えるなら、拒否、注意表示、人間レビュー、監査ログを会話ターン単位で組み立てられます。生成AIの安全性は、裏側のフィルターだけでなく、ユーザーが見ているUIと運用者が追う記録の設計になってきました。