2026/07/03 02:05

iOSWorld、スマホAIエージェントに「個人の文脈」という壁を置いた

スマホを操作するAIエージェントの評価は、これまで「画面を見て、正しい場所をタップできるか」に寄りがちでした。CMUの研究チームが公開したiOSWorldは、その前提を少しずらしています。26個のSwiftUI製アプリに、支払い、メール、移動、予定、買い物、仕事のつながりを持つ一人の架空ユーザーを入れ、エージェントがその人の文脈を読めるかを測ります。最高構成でも全体成功率は51.9%、複数アプリをまたぐタスクは36.7%。スマホAIの難しさは、タップ精度だけでなく、個人の履歴をどう扱うかに移っています。

iOSWorldのアプリ群とベンチマーク構成を示す概要画像 — 画像: iOSWorld

iOSWorldは、空のスマホではなく一人分の生活を置いた

iOSWorldの特徴は、iOSシミュレータ上に26個の架空アプリを作り、それらを一人のユーザー「Jordan Avery」のデータでつないだことです。QuickBiteの注文はMyBankの支払いとMailの領収書につながり、旅行予約はホテル、予定、メモとつながります。アプリはSwiftUIで作られ、金融、メッセージ、旅行、食事、買い物、仕事、フィットネスなどの領域をまたぎます。

この構成では、AIエージェントは単にボタンを押すだけでは済みません。最近のChipotle注文を調べ、銀行明細の請求額を確認し、メールの領収書を探し、Notesにメモを残す。あるいは、CityRideの履歴から本人のよく使うルートを推測して配車する。スマホの便利さはアプリ単体ではなく、アプリ間に残った個人の履歴でできている、という前提をベンチマークに入れています。

ここがAppleユーザーにとっても重要です。Siri、ショートカット、Visual Intelligence、ChatGPT、Codexのようなエージェント的な体験は、結局スマホやMacの中の個人データへ近づきます。AIが「使える」ほど、どの履歴を読ませるのか、どのアプリをまたがせるのか、本人の好みを推測させるのかという設計問題が前面に出ます。

複数アプリになると、最高構成でも4割に届かない

iOSWorldは133タスクを、単一アプリ、複数アプリ、記憶・パーソナライズの3種類に分けています。単一アプリは27件、複数アプリは60件、記憶タスクは46件です。評価対象にはClaude Opus 4.6、Claude Sonnet 4.6、GPT-5.4、GPT-5.4 Mini、Gemini 3 Flash、Qwen3.5 35B-A3Bが含まれ、スクリーンショットだけを見るvision-only条件と、XCUITestのアクセシビリティツリーも受け取るvision+XML条件を比べています。

結果はかなりはっきりしています。vision+XMLの最高構成では、単一アプリタスクは最大92.6%まで解けます。しかし複数アプリではOpus 4.6の36.7%が最高で、記憶タスクも54.3%にとどまります。画面上の要素を読んで押せることと、複数アプリに散らばった本人の事情をつなぐことは別の能力です。

iOSWorldが測るスマホAIの3つの難しさ

タスク種別	件数	何を測るか	最高構成の結果
単一アプリ	27	一つのアプリ内での基本操作	最大92.6%
複数アプリ	60	2から8個のアプリをまたぐ情報移動	最大36.7%
記憶・パーソナライズ	46	明示されていない本人のパターン推測	最大54.3%

失敗の分類も示唆的です。frontier modelのvision+XML失敗では、51%が50ステップの予算を使い切っています。単発のクリックミスより、途中で迷い、戻り、探し、やり直す長い操作の崩れが問題になります。スマホAIのUXは、賢い返答より先に、迷ったときの回復、作業の中断、確認、巻き戻しをどう設計するかにかかっています。

アクセシビリティ情報とツールは、能力と権限の境界になる

iOSWorldで面白いのは、アクセシビリティツリーを渡すと強いモデルは大きく伸びる一方で、小さなモデルはむしろ悪化することです。プロジェクトページは、privileged XML accessが強いfrontier modelを最大26ポイント押し上げる一方、小さなモデルには同じ利益が出ないと説明しています。論文側も、GPT-5.4 MiniやQwen3.5ではXMLの追加情報が負担になり、ループや失敗につながる例を報告しています。

これは実装上の小話ではありません。アクセシビリティ情報は、視覚だけでは読みにくいラベル、値、座標、画面外要素をエージェントに渡します。つまり、AIが使いやすくなるほど、OSやアプリはより構造化された内部情報を渡すことになります。その情報は能力を上げますが、同時に権限でもあります。

さらにiOSWorldは、MCPサーバーとしてアプリごとの意味的なツールも公開しています。たとえばmybank.send_zelleやmail.searchのような操作です。Qwen3.5 35Bでは、低レベルのタップ操作だけの場合に比べ、ツール利用で厳密成功数が17件から33件へ伸びています。ここから見えるのは、スマホAIの将来が「画面を見て押す」だけでなく、「構造化されたアプリ操作をどこまで許すか」に進むことです。

iOSWorldは、iPhoneそのものを評価するApple公式のベンチマークではありません。プロジェクトも、Appleとは無関係の学術研究だと明記しています。それでも、スマホAIの設計論としてはかなり実用的です。AIが本当にスマホを助けるなら、画面の座標だけでなく、本人の履歴、複数アプリの関係、アクセシビリティ情報、ツール権限を扱うことになります。便利なAIエージェントの境界は、モデルの性能表ではなく、どの個人文脈を読ませ、どの操作を任せ、どこで止めるかというOSとアプリの設計にあります。