Intel N100の格安iGPUでローカルLLMは動くか——XDA検証でGemma 3を試した結果

Q: llama.cppのビルドが途中で失敗する場合の対処は？

今回のケースでは、ホスト8GBに対しLXCへ5GB割り当て・スワップ512MBという構成で `cmake -B build cmake --build build -- -j1` が18%付近で停止したと報告されています。LXCのRAMを7GBへ引き上げ、3GBのスワップを追加することで完走したとされています。完了後はスワップを外して推論時のSSDボトルネックを避ける運用が紹介されています。

dGPUを持たない格安ミニPCでローカルLLMはどこまで動くのか——XDA Developersが、Intel N100搭載のLattePanda Mu（8GB RAM）でllama.cppを構築し、Gemma 3（4B）を実行した検証レポートを公開しました。N100は「市場で最も安価なx86プロセッサーの一つ」とされており、dGPUなしのiGPU環境でも4Bクラスのモデルは予想以上に実用的に動作したと報告されています。

検証マシンはLattePanda Mu——N100＋8GB RAMの最小構成

XDA Developersの記者であるAyush Pande氏が今回のテストに使ったのは、Intel N100搭載のコンピュートモジュール「LattePanda Mu」です。dGPUを使わずに、iGPUだけでローカルLLMを動かせるかというのが今回の主題で、N100は「市場で最も安価なx86プロセッサーの一つ」であることから題材に選ばれています。

公開情報の範囲では、検証機の主な仕様は以下の通りです。

項目	内容
製品	LattePanda Mu（コンピュートモジュール）
CPU	Intel N100
メモリ	8GB RAM

価格や詳細スペックについては、現時点では明らかにされていません。詳細は出典元を参照してください。

ProxmoxのLXC＋llama.cpp構成——iGPUパススルーは比較的容易

Pande氏は最終的にProxmox上のLXCコンテナにllama.cppを載せる構成を選択しています。スナップショットで素早く環境を戻したかったため、軽量なArchやDietPiでの直接構築ではなくLXC方式を採用したと説明されています。

iGPUのパススルー自体は、LXCのResourcesタブで /dev/dri/renderD128 をDevice Passthroughに追加し、アクセスモードを 0666 に設定するだけで済んだとされています。コンテナ側では intel-media-va-driver と vainfo をインストールしてiGPUが認識されることを確認したうえで、llama.cppのVulkanビルドへ進む流れです。

推論エンジンにOllamaを選ばなかった理由として、Pande氏は「Ollamaはオーバーヘッドが大きく、N100のような非力なハードウェアには不向き」「サーブ時のパラメーター指定の柔軟性が足りない」と述べています。代わりに llama.cpp をソースからVulkan有効でビルドする方針が取られました。

ビルド失敗の原因はRAM不足——LXCに7GB＋スワップ3GBで突破

llama.cppのビルドでは、Pande氏は早い段階でつまずいたと振り返っています。cmake -B build cmake --build build -- -j1 コマンドが毎回コンパイルの18%付近で失敗し、その都度LXCへの再ログインが必要になる症状で、原因はメモリ不足だったと報告されています。

具体的には、ホスト全体で8GBしか積んでいないところにLXCへ5GBしか割り当てておらず、スワップも512MBしかなかったことが要因とされています。Pande氏はLXCのRAM割り当てを7GBへ引き上げ、追加で3GBのスワップを確保したことでビルドが通ったと述べています。なお、SSDスワップを噛ませたままだと推論速度が落ちるため、llama.cppのインストール完了後にスワップは外したという運用上の補足もあります。

なお、過去にGTX 1080でllama.cppのVulkan版をコンパイルした際にも問題に直面した経験があると述べられており、軽量PCでLLM環境を組む際に踏みやすい落とし穴の一つだとわかります。メモリ余裕がそのまま開発体験を左右することがうかがえます。

モデル別の実測結果——Gemma 3（4B）はN100でも実用域

ビルドが通ったあと、Pande氏はGemma 3（4B、Q4_K_M）を llama-server インスタンスとして起動し、Web UIから動作を確認しています。コマンドは以下のように紹介されています。

./llama-server -m "/root/llama.cpp/models/gemma-3-4b-it-Q4_K_M.gguf" --host 0.0.0.0 --port 8082

Raspberry Piでは動作に難があったGemma 3（4B）が、N100では「decent（実用的）」と表現できる速度で動作したと報告されています。さらに、コンテキストウィンドウを16Kまで広げてもメモリを使い切らなかったとされており、これは良い兆候だとPande氏は評価しています。

なお、公開情報の範囲では、Gemma 3（4B）以降のモデル別の詳細な数値結果は本記事内では確認できません。詳細は出典元を参照してください。

メインGPU環境のサブサーバー候補として

Pande氏は、N100搭載のLattePanda Muが「ライトなLLMタスクには十分使える選択肢」だと総括しています。dGPUを使わず、iGPUと8GB RAMという最小構成でも4Bクラスのモデルが実用速度で動いたという結果は、家庭用サブLLMサーバーや実験用途を検討するユーザーにとって参考になる検証と言えそうです。

メインのdGPU環境を別に持っている人向けの補助構成として、あるいはRaspberry Piでは力不足だった用途のステップアップ先として、N100ボードは現実的な候補になり得ると読める内容です。

後継モデル「Gemma 4」が2026年3月にリリース

Googleは2026年3月31日、Gemma 3の後継となる「Gemma 4」をApache 2.0ライセンスで公開しています。ファミリーは用途別に4サイズで展開されているとされています。

バリアント	パラメーター	想定用途
E2B	2B	スマートフォン
E4B	4B	エッジ／ローカル
26B MoE	3.8B active	コンシューマーGPU
31B Dense	31B	ワークステーション

E2BとE4Bはテキスト・画像に加え、音声をネイティブで扱えるマルチモーダルモデルとされ、コンテキストウィンドウは最大128Kトークン、26B／31Bは256Kトークンまでサポートしています。全モデルが「設定可能な思考モード」を備える推論特化型として設計されており、N100でテストされた4BクラスのバトンをGemma 4 E4Bに渡せるかは今後の論点になりそうです。

LattePanda Muの実勢価格とBitNetという軽量化の選択肢

LattePanda Muは当初$139（早割$99）で発表されましたが、N100搭載モジュール単体では現時点で約$179からの販売とされ、別途キャリアボードと冷却機構の追加費用が必要だと案内されています。本体は69.6×60mmと小型で、TDPは6Wから35Wまで設定可能となっています。

軽量モデルという別アプローチ

N100でローカルLLMを動かす別ルートとして、Microsoftの「bitnet.cpp」フレームワークも注目されています。三値量子化のBitNet 2BモデルはわずかRAM約1.2GBで動作し、N100環境で5〜10トークン/秒程度の出力が期待できるとされています。8GBという制約の厳しい構成では、4Bクラスにこだわらずこうした超軽量モデルを選ぶ余地もあります。

Q&A

Q. N100＋iGPUだけでローカルLLMは実用ですか？ Gemma 3（4B、Q4_K_M）であれば、Raspberry Piよりも明確に速く、16Kコンテキストを設定してもメモリが飽和しないレベルで動作したと報告されています。ライトなLLMタスクには十分という温度感です。

Q. なぜOllamaではなくllama.cppを直接ビルドしたのですか？ 記事内でPande氏は、Ollamaはパフォーマンスオーバーヘッドが大きく非力なハードウェアには不向きで、サーブ時のパラメーター指定の柔軟性も不足していると述べています。N100のような環境では、llama.cppを直接Vulkanビルドする方が適しているという判断です。

Q. llama.cppのビルドが途中で失敗する場合の対処は？ 今回のケースでは、ホスト8GBに対しLXCへ5GB割り当て・スワップ512MBという構成で cmake -B build cmake --build build -- -j1 が18%付近で停止したと報告されています。LXCのRAMを7GBへ引き上げ、3GBのスワップを追加することで完走したとされています。完了後はスワップを外して推論時のSSDボトルネックを避ける運用が紹介されています。