41,472 GPU規模のクラスタで3,137基分のGPU電力を新たに空ける——AIデータセンターの電力天井を破る一手が、ついに実機として動き出しました。NVIDIAのシリコンフォトニクス(Co-Packaged Optics、CPO)スイッチ「Quantum-X InfiniBand Q3450-LD」が、AIクラウド企業Lambdaに初出荷されたとWccftechが報じています。標準スイッチ比でラックあたり3.05kWの電力を削減し、大規模クラスタでは最大3,137基分のGPU電力を空けられるとされ、AI向けネットワーキングにおけるCPO本格運用の第一歩となります。
ラックあたり3.05kWを削減——スイッチング層の電力を大きく圧縮
Q3450-LDが採用するシリコンフォトニクスCPOは、スイッチング層の消費電力を大きく下げます。従来型スイッチが約7.0kWを消費するのに対し、NVIDIAのCPOソリューションは3.95kW。差し引き3.05kWがGB300「Blackwell Ultra」プラットフォーム上で節約されます。
Lambdaによれば、3層構成クラスタにおけるバックエンドファブリックの電力比率はネットワーキング全体の86%に達しており、ここを削れる効果は大きいといえます。AIファクトリー全体で「電力をGPUに回す」設計思想の中核を担うコンポーネントです。
クラスタ規模別に見る節電効果——最大41,472 GPUで3,137基分の電力を捻出
NVIDIAが公開したクラスタ規模別の節電効果は次のとおりです。
| GB300 NVL72クラスタ規模 | CPOスイッチ数 | 解放される電力 | 電力換算した追加可能GPU |
|---|---|---|---|
| 576 GPU | 12 | 37 kW | +26基 |
| 4,608 GPU | 100 | 305 kW | +217基 |
| 10,368 GPU | 216 | 658 kW | +470基 |
| 41,472 GPU | 1,440 | 4,392 kW | +3,137基 |
最大規模の41,472 GPU構成では、スイッチ電力の削減分だけで3,137基ぶんの追加GPU電力を確保できる計算です。データセンターの電力枠が天井になりつつある現在のAIインフラ事情を考えると、純粋な性能上積みより「同じ電力でどれだけ計算を詰めるか」を競うフェーズに入っていることを象徴する数字といえます。
故障点も大幅減——128,000 GPUデータセンターの65.5万モジュールが対象
CPOがもたらすもう一つの効果が、故障点の削減です。Lambdaの試算では、128,000 GPU規模のデータセンターはスイッチングファブリック全体で65万5,000個のディスクリート光トランシーバーモジュールを使用しており、その一つひとつが故障点になり得ます。
CPOではこれらを光エンジンに統合できるため、ファブリック内の光部品数が大幅に減り、結果として障害発生数も抑えられます。
Q3450-LDの中身——144ポート800G InfiniBandを「ケージレス」で実現した新世代スイッチ
Q3450-LDが画期的なのは、従来のOSFPケージを廃し、ファイバーアレイ接続でシリコンフォトニクスエンジンに直結する「ケージレス」設計を採用した点です。LambdaにエンジニアリングサンプルとしてNVIDIAから届いたQ3450-LDは、18個の取り外し可能な外部光源モジュールが144個のMPOポートに光を供給する構造になっています。背面は48V DCのDGX互換バスバー、冷却は4本のUDQ4液冷コネクタによる二重ループです。
| 項目 | 仕様 |
|---|---|
| フォームファクタ | 4U |
| ASIC | NVIDIA Quantum-X800 |
| ポート | 144 × 800G InfiniBand |
| 光接続 | 144 MPOコネクタ |
| スイッチング容量 | 115.2 Tb/s ノンブロッキング |
| 電源入力 | 48V DC バスバー |
| 冷却 | 液冷・デュアルループ |
| 光源 | 取り外し式外部モジュール18個(8ポートにつき1個) |
すでにGB300 NVL72ラックを運用している事業者にとっては、馴染みのある設計思想に整理されていると伝えられています。
CPOレースの号砲——「同じ電力で何基積めるか」が次の競争軸
エージェンティックAIによってAIデータセンターのトークン処理量と電力効率への要求が一段と強まる中、CPOは「同じ床面積・同じ電力で計算量を増やす」鍵を握る技術として位置付けられています。NVIDIAがこのレースを先行している、というのが現時点の構図です。
AIインフラを設計・運用する立場では、これまで「GPUを何基積めるか」を制約していたスイッチ電力枠が一気に縮むことになります。41,472 GPU規模のクラスタでは、解放された4,392 kWを電力換算すると追加で3,137基分のGPUに相当するとされ、電力契約の見直しよりも先に、ネットワーク機器の刷新で「枠の作り直し」を検討する好機といえるでしょう。Lambdaのような早期採用先の運用データが今後どこまで公開されるか、続報が待たれます。
Q&A
Q. Q3450-LDで節約される3.05kWは具体的に何が変わるのですか? 標準スイッチが約7.0kWを消費するのに対し、Q3450-LDは3.95kWで動作するため、ラックごとに3.05kW分の電力枠が空きます。41,472 GPU規模のクラスタでは合計4,392 kWの節約となり、3,137基分の追加GPU電力に相当します。
Q. 故障点が減るというのはどういう意味ですか? 128,000 GPU規模のデータセンターでは、スイッチングファブリック全体で65万5,000個のトランシーバーモジュールが使われ、それぞれが故障要因になり得ます。CPOではこれらを光エンジンに統合でき、ファブリック内の光部品が大幅に減るため、結果として障害件数も抑えられます。
Q. Q3450-LDはどのような物理設計になっているのですか?冷却面の要件は? Q3450-LDは従来のOSFPケージを採用せず、ファイバーアレイ接続でシリコンフォトニクスエンジンに直結する設計です。冷却面では、4本のUDQ4液冷コネクタによる二重ループが前提となっており、すでにGB300 NVL72ラックを液冷で運用している環境とは親和性が高い設計と伝えられています。