NVIDIAがDiffusionGemmaをDay-1サポート——DGX Sparkで150+TPS、H100単体で1,000+TPS、最大4倍高速

1ステップで最大256トークンを同時生成し、同等の自己回帰モデルと比較しておよそ最大4倍高速——Google DeepMindの新オープンモデル「DiffusionGemma」が登場しました。NVIDIAはRTXとDGXの全ラインナップでDay-1サポートを表明し、DGX Sparkで150+ tokens/秒、H100単体で1,000+ tokens/秒という具体数値を公表しています。

1ステップで256トークンを並列生成する新方式

DiffusionGemmaの核心は、トークンを1つずつ予測する従来の自己回帰型ではなく、1ステップで最大256トークンを並列にデノイズして生成する点です。アーキテクチャはGoogleのGemma 4（260億パラメータのmixture-of-expertsモデル）をベースに、Diffusionヘッドを組み合わせた構成。総パラメータ25.2Bのうち、ステップごとに3.8Bのみをアクティブにします。

項目	仕様
モデル名	DiffusionGemma
総パラメータ	25.2B
アクティブパラメータ	3.8B（ステップごと）
1ステップあたりの並列生成	最大256トークン
コンテキスト長	最大256Kトークン
対応モダリティ	テキスト、画像
精度フォーマット	BF16、NVFP4
ライセンス	Apache 2.0

Wccftechによると、同等の自己回帰モデルと比較しておよそ最大4倍の高速化を実現するとされ、ローカルハードウェアでボトルネックになりがちなシングルユーザー生成のスループットを底上げします。

DGX Sparkで150+TPS、H100単体で1,000+TPS

NVIDIAが公表した推論性能の内訳は次の通りです。

DGX Spark: 150+ tokens/秒
DGX Station上のH100 Tensor Core GPU（シングルGPU）: 1,000+ tokens/秒
DGX Station: クラス最速のローカル推論を提供
GeForce RTX / RTX PRO Platforms: デスクトップ・ワークステーション向けにDay-1対応

NVIDIAはCUDAソフトウェアスタックとTensorコアアーキテクチャを活用し、追加チューニングなしで動作する点を強調しています。対応範囲はGeForce RTX GPU、RTX PROプラットフォーム、Spark系のミニPCからデータセンター級チップ搭載ワークステーションまで、DGXシリーズ全体に及びます。

クラウド不要・トークン課金なしでローカル完結

DiffusionGemmaはApache 2.0ライセンスのオープンウェイトモデルとして配布され、RTXおよびDGX Spark上で完全にローカル動作します。クラウド接続もトークン単位の課金も不要。Hugging Face TransformersのほかvLLM、UnslothでもDay-Zero対応が用意されており、BF16とNVFP4のチェックポイントはHugging Face上で公開されています。

So What?——ローカルAIの実用ラインを引き上げる

これまでフロンティア級モデルのローカル推論には、クラスタ規模のGPUインフラがほぼ必須でした。DGX Sparkのようなパーソナル「AIスーパーコンピュータ」で150+ TPSを叩き出せる事実は、エージェント型ワークフローやプロトタイピングを手元で完結させたい開発者にとって大きな転換点。150 TPSは日本語換算でおおむね1秒間に数百文字規模の体感速度に相当し、対話的な用途でも十分に滑らかなレスポンスを期待できる水準です。

対応フレームワークとデプロイ経路の広がり

DiffusionGemmaの推論・運用環境は、リリース当初から複数のスタックに横展開されています。Googleの開発者向け解説によれば、対応するランタイムは次の通り整理されています。

Hugging Face Transformers: 標準的な試用経路として利用できます
vLLM: 高スループット推論向けにDay-Zeroで対応しています
SGLang / MLX: いずれも効率的な実行が可能です
llama.cpp: 公式対応が準備中とされています

ファインチューニング系では、UnslothのほかNVIDIA NeMoフレームワークが利用可能で、ドメイン特化のチューニングをローカル環境で完結させやすい設計です。クラウドデプロイの選択肢として、Google Cloud Model GardenおよびNVIDIA NIM経由での配信もサポートされており、ローカルとクラウドの双方を行き来する開発フローが想定されています。量子化済みチェックポイントを使えば18GB VRAMに収まるとされており、コンシューマー級GPUでも扱える余地が確保されています。ランタイム・ファインチューニング・クラウド配信の3層がリリース当初から揃っている点は、開発者が実装からプロダクション投入までの導線をシームレスに設計できることを意味しています。

Diffusion LLMという潮流の中の位置づけ

DiffusionGemmaは、2026年半ばに本格化したdiffusion型言語モデルの潮流の中で、大手プラットフォーマーが投入した代表例にあたります。Inception Labsが先行投入した初の商用diffusion LLM「Mercury」は、H100単体で1,000+ tokens/秒を実現したとarXiv論文で報告されており、DiffusionGemmaのH100性能と同水準の到達点を示しています。

自己回帰モデルとの棲み分け

GPT、Claude、Gemini、Llamaを含む既存フロンティアモデルは、依然としてすべて自己回帰型トランスフォーマーで構築されています。

diffusion方式は、粗から精への反復的なデノイズ過程に自然な誤り訂正メカニズムを内包する点が構造的な強みとされています。

2026年半ばまでに、diffusion LLMはリアルタイムコード補完やエージェント型ワークフローを支える本番インフラへと移行しつつあり、低遅延が要求されるアプリケーション領域での採用が進んでいます。並列生成によるレイテンシ削減と誤り訂正機構の組み合わせが、自己回帰モデルとの棲み分けを形作る軸となっています。