NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を最大限に結集し、あらゆるデータ センターに最高のアプリケーション パフォーマンスを提供し、最速でインサイトを得ることができます。
NVIDIA HGX B300 は、高速インターコネクトを備えた 8 台の NVIDIA Blackwell Ultra GPU を統合しています。HGX B200 と比較して 1.5 倍の密度の FP4 Tensor コア FLOPS と 2 倍のアテンション性能を実現し、データ センターをアクセラレーテッド コンピューティングと生成 AI の新時代へと進める原動力となります。 前世代と比較して最大 30 倍の AI Factory 出力を可能にするプレミアム アクセラレーテッド スケールアップ プラットフォームとして、NVIDIA Blackwell Ultra ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロード向けに対応しています。
DeepSeek-R1 ISL = 32K、OSL = 8K、HGX B300 は FP4 Dynamo ディスアグリゲーションを適用。 H100 は FP8 インフライト バッチ処理を適用。 パフォーマンスは変更される場合があります。
このフロンティア曲線は、AI ファクトリーのトークン収益を決定する主要なパラメーターを示しています。 縦軸は、1 メガワット (MW) AI ファクトリーにおける GPU トークン/秒 (TPS) スループットを表し、横軸は、ユーザーの対話性と応答性を、単一のユーザーの TPS として定量化しています。 スループットと応答性のバランスが最適化された結果、HGX B300 は、NVIDIA Hopper アーキテクチャと比較して AI ファクトリーの出力パフォーマンスが全体で 30 倍向上し、トークン収益の最大化を実現します。
予想パフォーマンスは変更される場合があります。GPU あたりのパフォーマンスを FP8、16K BS、16K シーケンス長にて計測。
HGX B300 プラットフォームは、DeepSeek-R1 などの大規模言語モデルに対して、最大 2.6 倍のトレーニング性能を発揮します。 2 TB 以上の高速メモリと 14.4 TB/秒の NVLink Switch 帯域幅により、大規模なモデル トレーニングと高スループットの GPU 間通信を可能にします。
データ センターはコンピューティングにおける新しいユニットです。そして、ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界水準のパフォーマンスと効率を実現し、コンピューティング リソースをフルに活用できます。
イーサネットをデプロイする AI クラウド データ センターの場合、HGX を NVIDIA Spectrum-X ネットワーキング プラットフォームと共に使用するのが最適です。このプラットフォームはイーサネット上で最高の AI パフォーマンスを発揮します。Spectrum-X スイッチと NVIDIA SuperNIC™ によって最適なリソース利用とパフォーマンス分離を実現したことにより、規模や AI ジョブの同時実行数を問わず、一貫性のある予測可能な結果を算出できます。 Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを実現します。NVIDIA はリファレンス デザインとして、NVIDIA HGX 8-GPU プラットフォーム、BlueField-3 SuperNICs、および Spectrum-4 スイッチをベースにした Dell PowerEdge XE9680 サーバーを搭載したハイパースケール生成 AI スーパーコンピューター Israel-1 を設計しました。
NVIDIA HGX は、4 基または 8 基の Hopper SXM を搭載した単一ベースボード、あるいは 8 基の NVIDIA Blackwell または NVIDIA Blackwell Ultra SXM を搭載した単一ベースボードで利用可能です。ハードウェアとソフトウェアの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。
| HGX B300 | HGX B200 | |
|---|---|---|
| フォーム ファクター | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor コア1 | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor コア2 | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor コア2 | 3 POPS | 72 POPS |
| FP16/BF16 Tensor コア2 | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor コア2 | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor コア | 10 TFLOPS | 296 TFLOPS |
| メモリ合計 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 第 5 世代 | 第 5 世代 |
| NVIDIA NVLink Switch™ | NVLink 5 スイッチ | NVLink 5 スイッチ |
| NVLink GPU-to-GPU 帯域幅 | 1.8 TB/秒 | 1.8 TB/秒 |
| 合計 NVLink 帯域幅 | 14.4 TB/秒 | 14.4 TB/秒 |
| ネットワーキング帯域幅 | 1.6 TB/秒 | 0.8 TB/秒 |
| アテンション パフォーマンス3 | 2 倍 | 1 倍 |
1. 疎行列 | 密行列における性能。
2. 疎行列計算時の性能。 密行列計算時の性能は、疎行列計算の ½ となります。
3. Blackwell との比較。
| HGX H200 | ||||
|---|---|---|---|---|
| 4-GPU | 8-GPU | |||
| フォーム ファクター | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
| FP8 Tensor コア* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 Tensor コア* | 16 POPS | 32 POPS | ||
| FP16/BF16 Tensor コア* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 Tensor コア* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor コア | 270 TFLOPS | 540 TFLOPS | ||
| メモリ合計 | 564 GB HBM3E | 1.1 TB HBM3E | ||
| GPU 合計帯域幅 | 19 TB/秒 | 38 TB/秒 | ||
| NVLink | 第 4 世代 | 第 4 世代 | ||
| NVSwitch | なし | NVLink 4 スイッチ | ||
| NVSwitch GPU 間帯域幅 | なし | 900 GB/秒 | ||
| 合計帯域幅 | 3.6 TB/秒 | 7.2 TB/秒 | ||
| ネットワーキング帯域幅 | 0.4 TB/秒 | 0.8 TB/秒 | ||
| HGX H100 | ||||
|---|---|---|---|---|
| 4-GPU | 8-GPU | |||
| フォーム ファクター | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM | ||
| FP8 Tensor コア* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 Tensor コア* | 16 POPS | 32 POPS | ||
| FP16/BF16 Tensor コア* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 Tensor コア* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor コア | 270 TFLOPS | 540 TFLOPS | ||
| メモリ合計 | 320 GB HBM3 | 640 GB HBM3 | ||
| GPU 合計帯域幅 | 13 TB/秒 | 27 TB/秒 | ||
| NVLink | 第 4 世代 | 第 4 世代 | ||
| NVSwitch | なし | NVLink 4 スイッチ | ||
| NVSwitch GPU 間帯域幅 | なし | 900 GB/秒 | ||
| 合計帯域幅 | 3.6 TB/秒 | 7.2 TB/秒 | ||
| ネットワーキング帯域幅 | 0.4 TB/秒 | 0.8 TB/秒 | ||
* 疎行列におけるパフォーマンス。
NVIDIA Blackwell アーキテクチャの詳細をご覧ください。