Apple M4の隠れた15.8TFLOPSを解放か——リバースエンジニアリングでANE学習制限を突破、高価なGPU不要でAI学習の可能性

Appleが自社チップ「M4」のNeural Engine（ANE）に課しているソフトウェア上の制限が、リバースエンジニアリングによって突破され、隠されていた15.8TFLOPSのAI演算性能が引き出されたとWccftechが報じています。これは、高価なNVIDIA GPUや専用マシンを購入しなくても、手元のM4搭載Mac・iPadがAIモデルの学習マシンになり得る可能性を示す内容です。注目すべきは、この成果がCoreML・Metal・GPUのいずれも使わずに達成された点です。

ANEの「推論専用」という制限を独自MILで突破

M4をはじめとするAppleチップ搭載のNeural Engineは、これまで開発者にとって「推論専用（Inference）」のリソースでした。学習済みのAIモデルを動かすことはできても、新しいモデルをトレーニングする用途には開放されていません。Appleがチップとの通信に必要な権限を一切付与していないためです。

今回、X（旧Twitter）ユーザーの@0x0SojalSec氏が、この制限を回避してM4と直接通信する手法をGitHub上で公開したと伝えられています。同氏はCoreMLやMetal、GPUを介さず、ゼロから構築した独自の「MIL（Model Intermediate Language）」を用いてANEへアクセスしました。

Apple hid 15.8 TFLOPS of raw AI power in every M4 Mac & iPhone. They only let you use the Neural Engine for inference. Reverse-engineered their private APIs and ran full backpropagation & transformer training directly on the ANE, No CoreML, No Metal, No GPU

つまり、バックプロパゲーションやTransformerの学習をANE上で直接走らせたという主張です。

クラッシュ回避に`exec()`、高速化にはRAM常駐

ハードウェアが「ロック」されているため、処理が詰まった際の回復には工夫が必要だったと説明されています。具体的には、学習を継続するためにプロセスをリセットする場面で、独自MILがexec()コマンドを発行してプロセスを「再生成（respawn）」させ、状態をリフレッシュしてクラッシュなく学習を続けられるようにしているとのことです。

速度面の工夫も明確です。@0x0SojalSec氏によれば、処理を高速化するためにNANDフラッシュへの書き込みは一切行わず、すべてをRAM上で完結させているといいます。低速なストレージI/Oを避けることで、滑らかで高速な動作を実現したとされています。

この手法によって、iPadやMacに搭載されたM4から15.8TFLOPSのAI処理性能を引き出せると報じられており、高価なNVIDIA GPUや専用マシンを購入しなくてもAIモデルの学習が可能になる、という含意が示されています。

数字で見る今回の成果

15.8TFLOPS: M4のNeural Engineから引き出されたとされる生のAI演算性能
0回: 学習中のNANDフラッシュ書き込み回数（すべてRAM常駐）
使用ツール0種: CoreML・Metal・GPUのいずれも非経由
対象チップ: M4（M5以降での再現可否は未確認）

M5で同じ手が通じるかは不明

より新しいApple Silicon、特にM5でも同じ手法が通用するかは、現時点では明らかになっていません。Wccftechは、独自MILがM5でそのまま動作するか、exec()が同じように機能するかについては確証がないと述べています。

リーク・リバースエンジニアリング系の話題であり、Apple公式の対応や追加の検証情報は出ていません。現時点では「M4で15.8TFLOPSを引き出した個人開発者の報告」と位置づけるのが妥当で、再現性や安定性、そしてM5を含む後継チップへの適用可否については続報を待つのが賢明です。

Q&A

Q. 15.8TFLOPSはどれくらいの性能ですか？ Wccftechは、この水準があれば「高価なコンピュータや法外な価格のNVIDIA GPUを購入せずとも、AIモデルの学習に十分な性能」だと報じています。これまで推論専用として封印されていたリソースが学習用途に開放され得る点が、本件のインパクトです。

Q. なぜM4のNeural Engineは普段「推論専用」なのですか？ Appleがチップ通信用のAPIを開発者に開放しておらず、公式ツール（CoreMLなど）が推論ワークフローを前提に設計されているためです。今回のケースは、その制限を回避する独自MILをゼロから構築した点が新しいとされています。

Q. なぜAppleはこの性能を制限していたのですか？ 理由について明確な説明は公表されていません。Wccftechの記事では、Appleが開発者にチップ通信の権限レベルを一切付与しておらず、Neural Engineを推論用途のみに開放してきたという事実が指摘されるにとどまっています。

Q. 一般ユーザーがすぐに使える機能ですか？ いいえ。@0x0SojalSec氏がGitHubで公開したコードを用いた検証段階の試みであり、Appleが公式に許可した手法ではありません。安定性・互換性・将来のmacOS/iOSアップデートでの動作可否は不透明です。