Googleが「DiffusionGemma」公開——H100で1,000トークン/秒超の高速生成、ただし品質はGemmaに及ばず

Googleが、テキスト生成の方式そのものを見直した実験的AIモデル「DiffusionGemma」を公開しました。NVIDIA H100で1,000トークン/秒超という生成速度を打ち出し、1単語ずつ順番に書き出すのではなく、テキスト全体を一気に生成してから繰り返し磨き上げる「拡散モデル」型のアプローチを採用しています。Apache 2.0ライセンスのオープンソースとして配布されており、Android Authorityによる解説をもとに、何がどう速いのか、そしてどんなトレードオフがあるのかを整理します。

「1単語ずつ」ではなく「全体を一気に下書き→推敲」する仕組み

DiffusionGemmaの最大の特徴は、テキスト生成の手順そのものが従来の大規模言語モデルとは異なる点にあります。Gemmaファミリーのような一般的な自己回帰型モデルは、トークンを1つずつ順番に生成し、次の単語は直前までの文脈に依存して決まります。この逐次性こそが、生成を高速化しづらい根本的な要因になっていました。

一方のDiffusionGemmaは、ランダムなトークンで埋まった「ノイズだらけの下書き」から出発し、複数回のパスを通じて段階的にノイズを除去していく方式を採ります。各パスごとに出力はより構造化され、最終的に読める文章へと収束していくという。従来モデルが「書く」のに対し、DiffusionGemmaは「全体を下書きして同時に推敲する」というイメージです。

H100で1,000トークン/秒超、RTX 5090で700トークン/秒超

この方式変更は性能に直接効きます。Googleの説明では、シングルユーザーが単独でGPUを使うような低並列シナリオで、標準的な自己回帰型モデル比で最大4倍高速になる可能性があると説明されています。

ハイエンドGPUでの数値はさらに踏み込んでいます。

GPU	トークン生成速度
NVIDIA H100	1,000トークン/秒超
NVIDIA RTX 5090	700トークン/秒超

並列処理を前提とした拡散モデル特有のアーキテクチャが、ここで効いてくる構図です。

26B MoEながら推論時は3.8Bのみ稼働、量子化で18GB VRAMに収まる

DiffusionGemmaは260億パラメータのMixture-of-Experts（MoE）モデルですが、推論時に実際にアクティブになるのは約38億パラメータに抑えられており、計算コストを現実的な水準に保っています。

Googleによれば、量子化を適用することでハイエンドのコンシューマー向けGPUでも動作可能で、メモリフットプリントは約18GB VRAMとされています。さらに、1ステップで最大256トークンを並列生成でき、各トークンがブロック内の他のすべてのトークンを参照できる構造になっているという。この「ブロック全体を俯瞰できる」性質は、コードの欠損部分の補完、JSONのような構造化フォーマットの生成、数独のような論理パズル、全体の一貫性が文単位の流暢さより重要な数学的パターンといったタスクと相性が良いと説明されています。生成サイクル内で矛盾を自己修正できる点も、自己回帰型にはない強みです。

トレードオフ——出力品質はGemmaファミリーに及ばない

ただし、Google自身が率直に認めるトレードオフがあります。DiffusionGemmaの出力品質は既存のGemmaファミリーには及ばず、文章は安定性に欠け、洗練度も低く、複雑あるいは微妙なニュアンスを要する応答では信頼性が落ちる可能性があるという。速度と引き換えに、仕上がりの「磨き」を犠牲にしているかたちです。

そのためGoogleは本モデルを、リアルタイムAIツール、インラインの文章・コーディング支援、即時フィードバックを重視する反復ワークフローなど、完成度より応答性が重視される用途向けの実験的ツールとして位置づけています。既存のGeminiやGemmaを置き換えるものではないと明言されており、対象も一般ユーザーではなく開発者・研究者です。一般読者にとっても、将来的にはエディタ上でのインライン補完やチャット応答の体感的な即応性が一段引き上がる可能性があり、その下地となる技術と捉えることができます。

今すぐ触るべきか、既存Gemmaで待つべきか

現時点でDiffusionGemmaは、即座にプロダクション投入できる完成品というよりも、「テキスト生成は次トークン予測でなければならない」という前提に揺さぶりをかける研究的リリースと捉えるのが妥当です。開発者・研究者でローカルでの高速推論や構造化出力タスクに関心があるなら、Apache 2.0ライセンスで触れる今のうちに評価しておく価値があります。一方、一般的なチャット用途や品質重視の業務利用では、引き続き既存のGemmaやGeminiを使う判断で問題ないと言えそうです。

Q&A

Q. DiffusionGemmaはGemmaの後継モデルですか？ いいえ、後継ではありません。Googleは既存のGeminiやGemmaを置き換えるものではないと明言しており、速度と効率を優先した実験的モデルとして位置づけています。

Q. 自分のPCで動かせますか？ 量子化した場合、約18GB VRAMのメモリフットプリントでハイエンドのコンシューマー向けGPUでも動作可能だとされています。Apache 2.0ライセンスでオープンソース化されており、対象は開発者・研究者です。

Q. どんなタスクで速度差を体感しやすいですか？ コード補完、JSONなど構造化フォーマットの生成、数独のような論理パズル、数学的パターン処理など、ブロック全体の一貫性が重視されるタスクで相性が良いと説明されています。逆に、長文の自然な物語生成のような微妙なニュアンス重視のタスクでは品質面のトレードオフが目立ちやすいと考えられます。