2026/06/11 09:18

AppleのMLX、Mac上AIエージェントを「実験」から実務へ押し出した

WWDC26のMLXセッションは、AppleがローカルAIを単なる模型で終わらせず、実際の作業フローへ押し出そうとしていることをかなり率直に示しました。MLX-LM ServerはOpenAI互換APIでエージェントを受け、OpenCodeやXcodeのような既存ツールをそのままローカルモデルへ向けられます。さらにM5のNeural Acceleratorsでプロンプト処理を速め、複数サブエージェントや複数Mac構成まで前提にしている点を見ると、Appleは『Mac上で動くAI』ではなく『Mac上で仕事を回すAI』へ踏み込み始めています。

Apple Developerの記事画像 — 画像: Apple Developer

AppleはMLXを、ローカル推論ライブラリからエージェント基盤へ広げた

セッションのいちばん重要な点は、Appleがエージェントの基本ループそのものをローカルで回す前提を明示したことです。説明では、エージェントはモデルへ相談し、ツールを呼び出し、結果を見て次を決める循環を繰り返します。その全体をApple silicon上で動かせるので、データは手元に残り、オフラインでも使え、利用量課金も発生しないと位置づけています。

しかもAppleは、その入り口を独自UIに閉じませんでした。MLX-LM ServerをOpenAI互換のHTTPサーバーとして出し、tool callingやreasoning modelまで扱えると説明しています。つまりXcode、OpenCode、独自スクリプトのように、そのAPIを話せるエージェントならローカルモデルへ差し替えやすい。ここでAppleは、MLXを研究用フレームワークから実務用の接続面へ一段押し広げています。

M5とcontinuous batchingで、遅くなりがちなエージェントの往復を詰めている

Appleが今回かなり具体的に話したのが、エージェント特有の遅さです。ツール結果が返るたびに、モデルは新しい文脈を読み直して次の手を考える必要があり、生成よりプロンプト処理が支配的になりやすい。セッションでは、M5の専用Neural Acceleratorsがこの種の行列計算をM4比で4倍速くし、MLXの特殊化カーネルでそのままプロンプト処理の高速化へ効くと説明されました。

加えて、Appleはサブエージェント前提の並列実行も正面から扱っています。MLX-LM Serverはcontinuous batchingで複数要求をまとめてGPUへ流し、進行中バッチにも新規要求を合流させられるとされます。ドキュメントを読む係、コードを探す係、テストを書く係が同時にローカルモデルへ当たり続ける構図を、Apple自身が標準的なエージェント像として描いているわけです。

複数Macへの分散まで入ったことで、ローカルAIは趣味の域を超え始めた

セッション後半では、単一Macに収まらない巨大モデルも視野に入っています。Appleは、1.6兆パラメータ級モデルのように単機では重すぎる場合、ThunderboltやEthernetでつないだ複数Macへモデルを分散できると説明しました。macOS 26.2ではThunderbolt RDMAにも対応し、4ノード構成で最大3倍の高速化が見られたとしています。

MLXローカルエージェント基盤の4層

層	役割	今回のポイント
MLX	Apple silicon向け計算基盤	Metal最適化とメモリ管理で土台を支える
MLX-LM / Server	モデル実行とOpenAI互換API	tool callingとreasoning modelをローカルで受ける
エージェント	Xcode、OpenCode、独自スクリプト	既存の接続面をローカルモデルへ差し替えやすい
分散構成	複数Macでモデルを分割	大きなモデルと高速なプロンプト処理を両立しやすい

この話が示すのは、AppleがローカルAIを『軽いデモを速く動かす』ところで止めていないことです。OpenAI互換API、M5向け最適化、並列サブエージェント、複数Mac分散までそろうと、MLXはApple版のローカルAIスタックとしてかなり輪郭がはっきりします。クラウド依存を完全に消す話ではありませんが、Mac上で完結させたい作業の範囲は今年かなり広がりそうです。

今回のMLXセッションは、AppleがローカルAIを『Apple siliconで動く』だけの話から、『Macで実際の仕事を回す』話へ進め始めたことを示していました。OpenAI互換の接続面、M5での文脈処理高速化、並列サブエージェント、複数Mac分散まで並べた以上、MLXは実験室の材料ではなく、ローカルエージェント運用の基盤として見たほうが正確です。

AppleはMLXを、ローカル推論ライブラリからエージェント基盤へ広げた

M5とcontinuous batchingで、遅くなりがちなエージェントの往復を詰めている

複数Macへの分散まで入ったことで、ローカルAIは趣味の域を超え始めた

関連記事