iPhoneのオンデバイスAIが今後どう変わるのかを占ううえで重要な初期ベンチマークが公開されました。AppleがWWDC'26で発表した新しいオンデバイスAI基盤「CoreAI」は、2017年の登場以来約9年にわたり主役だったCoreMLの後継として注目を集めていますが、小型モデルでは旧来のフレームワーク「MLX」を2.47倍上回る一方、実用域とされる8Bパラメータでは1.05倍と僅差にとどまる、ニュアンスのある結果が示されました。
小型モデルでは最大2.47倍、ただし「実用サイズ」で景色が変わる
検証はQwen3-0.6B(6億パラメータ)モデルをM4 Macで走らせるかたちで行われ、CoreAIはデコード処理でMLX比約2.47倍速となりました。iPhone 17 Proでも同じQwen3 0.6Bでデコードが約1.6倍速くなったと報じられています。
ところが、より実用的とされるQwen3 8B(80億パラメータ、M4 Max Mac)に切り替えると、CoreAIのMLX比はわずか1.05倍にまで縮まり、Wccftechは「現実的な8Bでほぼ同点に収束する」と表現しています。つまりユーザーにとっては、小型モデルでの大差は必ずしも一般的な生成AIアプリの体感速度に直結しない、という見方が妥当です。
なお、CoreAIはフォーマット非依存の推論や大規模モデルのメモリフットプリント対応を備えるとされ、エッジAI・オンデバイス推論向けに最適化された後継と位置づけられています。一方MLXは研究・学習・ファインチューニング向けで、AppleのMetal GPUと統一メモリアーキテクチャに紐づくエンジンと説明されています。
GPUは速いが持続力ではANEが勝つ──iPhone 17 Proの実測トークンレート
開発者MLBoy_DaisukeMajima氏がX上で公開したiPhone 17 ProでのQwen3-0.6Bデコード速度(tokens/秒)は次の通りです。
| 実行環境 | デコード速度 |
|---|---|
| Core AI(GPU, pipelined, warm) | 180 tok/s |
| MLX(GPU) | 115 tok/s |
| Core AI(ANE) | 50 tok/s |
| CoreML-LLM(ANE) | 39 tok/s |
ピーク速度では**最速の180 tok/sを記録したCore AI(GPU)**が頭一つ抜けており、MLX(115 tok/s)に対しても明確な差があります。一方で注目すべきはサステインド(持続)ワークロード時の挙動です。iPhone 17 ProではGPUが比較的早めにスロットリングし、CoreML/Apple Neural Engine(ANE)の組み合わせが持続性能で先行するケースがあると伝えられています。ANE側はメモリ消費が最小である一方、デコード単体の速度は最も遅い(39 tok/s)というトレードオフ構造です。つまりユーザーにとっては、短時間の応答ではGPU経路、長時間の連続生成ではANE経路が有利になり得る、という棲み分けが見えてきます。
Appleを上回る場面も──GoogleのLiteRT-LMがメモリ効率で圧倒
興味深いのは、ベンダー特化エンジンが汎用エンジンを上回るという指摘です。GoogleのLiteRT-LMでGemmaを動かすと、iPhone 17 Proで55.4 tok/sとテスト中最速を記録し、しかもAppleのMLX比でRAM使用量が**4.5分の1(641MB対2,900MB)**に収まったと報じられています。Apple陣営の新フレームワークだけが正解ではなく、モデルとエンジンの組み合わせ次第で景色が変わることを示すデータです。つまりユーザーにとっては、将来的にiPhone上で動く生成AIアプリの「軽さ」や「速さ」は、Apple以外のエンジン採用の判断にも左右される可能性があるということです。
Foundation Modelsフレームワーク刷新で広がる「モデルを差し替える」選択肢
WWDC 2026では推論基盤と並んで、開発者向けの「Foundation Models」フレームワークも大幅に刷新されました。同一のSwift APIから、Appleのオンデバイスモデルだけでなく、ClaudeやGeminiといったサードパーティモデルも呼び出せる設計へと変わったと報じられています。
主な強化ポイント
- 画像入力に対応したマルチモーダルプロンプトの受け渡しが可能
- コードを書き換えずにAIプロバイダーを差し替えられる統一API設計
- 初回ダウンロード200万件未満の小規模デベロッパー向けに、Private Cloud Compute上のApple Foundation Modelsへの無料アクセスを提供
- フレームワーク自体は今夏中にオープンソース化が予告
同一Swift APIから外部モデルへ切り替えられる構造は、特定エンジンの推論性能差がそのままアプリ体験に反映される経路を太くします。
CoreAIエンジン側で計測された速度差やメモリ効率の傾向は、Foundation Modelsを介した「どのモデルをどのエンジンで走らせるか」という選択と密接に絡みます。小規模開発者へのPrivate Cloud Compute無料枠の提供は、オンデバイスとクラウドの境界を曖昧にしつつ、生成AI機能を組み込みやすくする狙いとみられています。
A19 Proのハード強化が示すiPhone 17 ProのAI下地
CoreAIのベンチマーク差を読み解くうえで、土台となるA19 Proの設計刷新も押さえておく価値があります。A19 Proは16コアNeural Engineに加え、各GPUコアへ専用テンソル処理ユニット「Neural Accelerators」を統合した点が大きな変更点です。
| 項目 | A19 Pro / iPhone 17 Pro |
|---|---|
| Neural Engine | 16コア |
| GPU | 各コアにNeural Accelerators内蔵 |
| メモリ | LPDDR5X 12GB、9600 MT/s、帯域76.8 GB/s |
| 冷却 | アルミユニボディに脱イオン水ベイパーチャンバーをレーザー溶接 |
Argmaxの計測では、iOS 26上の大規模Transformer推論でiPhone 16 Pro比最大3.1倍速の数値が示されたと報じられています。さらにベイパーチャンバー構造により持続性能は最大40%改善され、長時間生成でGPUがスロットリングしやすい従来傾向を緩和する設計になっています。GPUピークとANE持続のトレードオフは、ハード側からも縮まりつつあると言えます。
Q&A
Q. CoreAIは旧CoreML・MLXを完全に置き換えるのですか? 結論から言うと、用途次第で使い分けが続く見込みです。CoreAIはエッジAI・オンデバイス推論向けに最適化された後継と位置づけられる一方、MLXは研究・学習・ファインチューニング向けで、Metal GPUと統一メモリに最適化されたエンジンとされています。8Bクラスでは速度差が約1.05倍と僅差で、サステインド時にはCoreML/ANEの組み合わせが優位になる場面もあると伝えられているため、当面は併存する構図が予想されます。
Q. 一般ユーザーへの影響はいつ実感できますか? 今回のテストは開発者向けの初期ベンチマークで、iPhone 17 ProやM4/M4 Max Macでの計測結果です。実アプリへの恩恵は、CoreAIを採用したサードパーティ製アプリやApple純正機能の展開を待つ必要があります。リーク・初期検証段階の数値として受け止めるのが妥当で、続報を待ちましょう。