あなたのスマートフォンで、クラウド通信なしにLLMが動く時代が現実味を帯びてきました。Googleがオープンモデル「Gemma 4」のQuantization-Aware Training(QAT、量子化対応学習)版を公開し、Android Authorityによると、モバイル動作に必要なメモリは約1GBまで削減されたと報じられています。オフラインでの推論はバッテリー消費やプライバシー面でも利点があり、手元の端末でAIを完結させたい開発者・パワーユーザーにとって見逃せない更新です。
PTQでは届かなかった品質を、学習段階の量子化で実現
軽量モデルをスマホやノートPCで動かすには、メモリ使用量を抑える量子化が欠かせません。一般的な手法は学習後に圧縮するPost-Training Quantization(PTQ)ですが、性能劣化が出やすいという課題が指摘されてきました。
Gemma 4 QAT版は、学習プロセスそのものに量子化を組み込むことで、品質劣化を抑えつつデコード速度の向上も狙う方式です。Googleのブログ投稿では、PTQで仕上げたチェックポイントよりも性能面で優れた結果が得られると説明されています。
クラウド不要・オフライン動作を狙うモバイル特化の圧縮
QAT版は、スマートフォンやノートPCでの動作を見据えた独自のモバイル量子化スキーマを採用しています。具体的には次のような工夫が組み合わされていると報じられています。
- 事前計算済みの量子化設定の利用
- モデルの一部に2bit圧縮を適用
- 語彙リストと短期メモリ(short-term memory)の圧縮
Googleはこれらのモデルについて「bfloat16と同等の品質を保ちつつ、ロードに必要なメモリを劇的に削減する」と説明しています。ユーザー側から見れば、クラウドにデータを送らずにオフラインで応答が返り、通信遅延もプライバシー懸念も小さくなる点が直接的なメリットになります。
5サイズ展開、最小は約1GBのメモリで動作
QAT最適化版は5つのサイズで提供されると報じられています。
- Gemma 4 E2B
- Gemma 4 E4B
- Gemma 4 12B
- Gemma 4 26B A4B
- Gemma 4 31B
中でも最小のテキスト専用モデル「Gemma 4 E2B」は、動作に必要なモバイルメモリを約1GBまで削減したとされており、スマートフォン上での実行に適したラインに位置づけられます。各サイズのおおよそのメモリ要件はGoogleが公開したグラフで示されていると伝えられています。
4種類のフォーマットで配布、Hugging FaceとLM Studioから
ダウンロード可能なフォーマットは4種類です。未量子化のQATチェックポイント、GGUF(GPT-Generated Unified Format)、モバイル最適化版、そしてCompressed Tensorsが用意されています。重みをダウンロードしたあとは、スマートフォン・ノートPC・デスクトップで動作させることが可能です。
モバイル向け・デスクトップ向けモデルはHugging Faceに加え、LM Studio経由でも入手できると報じられています。手元の端末で「どこまで動くか」を試したい場合、まずは最小のE2Bから着手し、要約・翻訳・短文応答のような軽量タスクで応答品質と速度を確認するのが現実的な入口です。より複雑な推論や長文処理を狙うならE4B以上にステップアップし、用途と端末メモリのバランスから自分に合うサイズを絞り込んでいくと無駄がありません。
競合する小型モデルとの位置づけ——Phi-4 Mini・Llama 3.2・Qwen 2.5との比較
Microsoftが投入したPhi-4 Mini(3.8Bパラメータ)はsub-4Bクラスで最も推論性能が高く、Chain-of-thought系のタスクではGemma 3 4BやLlama 3.2 3Bを上回ると報告されています。一方、Gemma 3 4BはiPhone 16 Pro上でGoogle AI Edge SDK利用時に約27 tok/sのスループットを記録しているとされています。Q4_K_M量子化時のメモリフットプリントを並べると、各モデルが狙う動作レンジの違いが整理できます。
| モデル | メモリ(Q4_K_M) |
|---|---|
| Phi-4 Mini 3.8B | 約2.7GB |
| Llama 3.2 3B | 約2.2GB |
| SmolLM 2 1.7B | 約1.1GB |
| Qwen 2.5 1.5B | 約1.0GB |
推論性能を最優先するならPhi-4 Miniが候補に挙がり、端末メモリの余裕を確保したいユースケースではQwen 2.5 1.5BやSmolLM 2 1.7Bが選択肢に入ります。利用したいタスクの重さと、手元の端末で割けるメモリ量の両方から逆算してサイズを選ぶ流れが現実的です。
オンデバイスAIを支えるNPUとエッジ市場の急拡大
モバイルSoC側のNPU性能向上も同時に進んでいます。QualcommのSnapdragon X2 Elite ExtremeはNPU性能80 TOPSに達し、前世代の2倍へ引き上げられたと伝えられています。Gemma 4 QAT自体も、FP16版と比較してモバイルクラスNPU上で最大2倍の推論速度と、約40〜50%のメモリ削減を実現すると報じられており、ハードとモデル双方で効率化が進んでいます。
- Coral NPU: Googleは超低電力エッジAI向けの新プラットフォームとしてCoral NPUを発表し、512 GOPS級の性能を数mWで提供すると説明しています
- 市場規模: エッジAIハードウェア市場は2026年に約307億ドル規模、推論最適化チップは500億ドルを超える見通しと報じられています
- 推論の局所化: 推論が端末内で完結する構成では、プロンプトや画像が外部に送信されずに処理されます
ハードウェア側のTOPS引き上げと、QATによる重み圧縮が同じタイミングで噛み合いつつあるのが現在のフェーズです。
Q&A
Q. QATとPTQの違いは何ですか? PTQは学習が終わったあとにモデルを量子化する方式で、性能劣化が出る可能性があります。QATは学習プロセス自体に量子化を組み込むため、Googleによればbfloat16に近い品質を保ちながらメモリ要件を大幅に下げられるとされています。
Q. スマートフォンで動かすにはどのサイズが現実的ですか? 最小のGemma 4 E2B(テキスト専用)はモバイル動作に必要なメモリを約1GBまで削減したとされており、スマートフォン上での実行に最も適したサイズです。より高性能を狙う場合はE4B以上が選択肢になりますが、メモリ要件は大きくなります。
Q. QAT版はオフラインでも使えますか? 重みをローカルにダウンロードして動作させる前提のモデルのため、原理的にはクラウド接続なしでの推論が可能です。通信を介さないため、入力データを外部サーバーに送らずに済む点もオンデバイスAIの利点として位置づけられます。