OpenAIのWeb search、検索結果をテキストから画像ソースへ広げた
OpenAI Developersの6月9日付API changelogは、Responses APIのweb_searchが通常のテキスト結果に加えて画像結果を返せるようになったと示しました。単に回答文の中に画像を混ぜる話ではありません。web_search_call.resultsにimage_resultが入り、image_url、source_website_url、thumbnail_url、captionをアプリ側で読める。AI検索が、引用付きテキストから、出典を持つ視覚資料の取得UIへ広がり始めています。
画像検索は、回答文ではなく結果オブジェクトになる
OpenAIのWeb search guideは、画像結果を使うにはsearch_content_typesにimageを含めると説明しています。textも一緒に指定すれば、取得した画像を要約、比較、説明するためのテキスト結果も組み合わせられます。
重要なのは、画像がアシスタントの文章に埋め込まれるだけではない点です。raw image resultsを見たい場合はincludeにweb_search_call.resultsを指定し、web_search_callのresults配列を読む。画像結果はassistant messageとは別に返るため、アプリがURLやメタデータを直接扱えます。
結果の形も、かなり実装寄りです。image_resultにはcanonicalなimage_url、画像が見つかったsource_website_url、thumbnail_url、captionが含まれます。つまり、AI検索のUIは「それらしい画像を生成する」のではなく、現在のWeb上にある視覚資料を、出典ページ付きで取り出す方向へ寄っています。
商品、場所、イベントの検索UIが変わる
changelogは、この機能を「current or web-grounded visuals」が必要な用途向けとしています。ガイドが挙げる例は、商品写真、ランドマーク、場所、イベント、視覚的な参照です。これは検索結果ページの小さなサムネイルをAIが読む話ではなく、アプリ側が画像検索を一つのツール出力として受け取れるという話です。
たとえば旅行、買い物、ニュース確認、デザインリサーチでは、テキストだけの要約では足りない場面があります。画像の出典ページ、キャプション、サムネイルを分けて扱えるなら、回答本文、画像グリッド、出典リスト、比較カードを同じ検索結果から組み立てられます。
Interface Wire的に見ると、これはAI検索がチャット欄の中だけで完結しない方向です。モデルが文章で説明し、同時にアプリが画像候補をUI部品として並べる。検索の結果が、文章と視覚素材を別々のレイヤーで返すようになるほど、AIアプリは検索エンジン、画像ギャラリー、出典ビューの中間のような形になります。
引用と出典ページの扱いがさらに重要になる
OpenAIのWeb search guideは、Web結果やWeb結果に含まれる情報をエンドユーザーに表示する場合、inline citationsを明確に見えてクリックできる形にする必要があると説明しています。画像結果でもsource_website_urlが返るため、画像だけを切り出して見せる設計は危うくなります。
画像検索は便利ですが、誤認や古い画像、文脈の違う写真を拾うリスクもあります。captionは短い説明にすぎず、最終的な信頼性は出典ページ、通常のテキスト結果、必要なら追加の確認に依存します。画像URLだけで判断せず、source_website_urlをUIの一部として扱う必要があります。
今回の更新は大きな製品発表ではありませんが、AI検索の形を少し変えます。テキストの根拠としてURLを示すだけでなく、視覚資料もURL、出典ページ、サムネイル、説明を持つ構造化結果として扱う。生成AIアプリがWebの現在性を扱うなら、次に問われるのは、どの画像をなぜ見せるかをユーザーが検証できるUIです。
Responses APIのweb_search画像結果は、AI検索を画像生成の代わりにする機能ではありません。むしろ逆で、現在のWeb上にある画像を、出典ページとメタデータ付きでアプリへ渡す検索部品です。AIが答えを書く画面から、商品、場所、ニュース、デザイン資料を見比べる画面へ広がるなら、重要になるのは画像の美しさより、出典、文脈、選び直しやすさです。