NVIDIA HGX
プラットフォーム

あらゆるデータセンターで高度な AI を高速化します。

概要

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX™ プラットフォームは、NVIDIA GPUNVIDIA NVLink™NVIDIA ネットワーキング、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を最大限に結集し、あらゆるデータ センターに最高のアプリケーション パフォーマンスを提供し、最速でインサイトを得ることができます。

NVIDIA HGX B300 は、高速インターコネクトを備えた 8 台の NVIDIA Blackwell Ultra GPU を統合しています。HGX B200 と比較して 1.5 倍の密度の FP4 Tensor コア FLOPS と 2 倍のアテンション性能を実現し、データ センターをアクセラレーテッド コンピューティングと生成 AI の新時代へと進める原動力となります。 前世代と比較して最大 30 倍の AI Factory 出力を可能にするプレミアム アクセラレーテッド スケールアップ プラットフォームとして、NVIDIA Blackwell Ultra ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロード向けに対応しています。

NVIDIA Blackwell Ultra データシート

NVIDIA Blackwell Ultra は、大規模 AI リーズニング推論向けに設計されており、よりスマートで、高速、効率的な AI の運用を可能にします。NVIDIA HGX B300 および GB300 NVL72 の仕様とパフォーマンスについては、こちらをご覧ください。

NVIDIA HGX H100 と HGX H200 データシート

NVIDIA の HGX H100 および H200 システムの機能と特徴をご覧ください。 このデータシートには、仕様とパフォーマンスに関する詳細情報が含まれています。

AI とハイパフォーマンス コンピューティング向けに開発

AI や、複雑なシミュレーション、膨大なデータセットでは、複数の GPU によるきわめて高速なインターコネクトと完全に高速化されたソフトウェア スタックが必要となります。 NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI および高性能コンピューティング(HPC)ソフトウェア スタックの能力を最大限に結集し、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供し、最速で洞察を得ることができます。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX B300 は、NVIDIA Blackwell Ultra GPU と高速インターコネクトを統合し、データ センターをアクセラレーテッド コンピューティングと生成 AI の新時代へと進める原動力となります。 前世代と比較して最大 11 倍の推論性能を備えたアクセラレーテッド スケールアップ プラットフォームとして、Blackwell ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロードに対応しています。

NVIDIA HGX は、最高の AI 性能を実現するため、NVIDIA Quantum-2 InfiniBand とSpectrum™-X Ethernet を使用して、最大 800 ギガビット / 秒 (Gb/s) の高度なネットワーク オプションを搭載しています。 HGX はまた、ハイパースケール AI クラウドでクラウド ネットワーク、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングの弾力性の確保を実現する NVIDIA® BlueField®-3 データ処理ユニット (DPU) も搭載しています。 

AI 推論パフォーマンスと汎用性

DeepSeek-R1 ISL = 32K、OSL = 8K、HGX B300 は FP4 Dynamo ディスアグリゲーションを適用。 H100 は FP8 インフライト バッチ処理を適用。 パフォーマンスは変更される場合があります。

HGX B300 AI ファクトリーの出力で収益を向上

このフロンティア曲線は、AI ファクトリーのトークン収益を決定する主要なパラメーターを示しています。 縦軸は、1 メガワット (MW) AI ファクトリーにおける GPU トークン/秒 (TPS) スループットを表し、横軸は、ユーザーの対話性と応答性を、単一のユーザーの TPS として定量化しています。 スループットと応答性のバランスが最適化された結果、HGX B300 は、NVIDIA Hopper アーキテクチャと比較して AI ファクトリーの出力パフォーマンスが全体で 30 倍向上し、トークン収益の最大化を実現します。

大規模 AI モデル向けのスケーラブルなトレーニング

予想パフォーマンスは変更される場合があります。GPU あたりのパフォーマンスを FP8、16K BS、16K シーケンス長にて計測。

一段上のトレーニング パフォーマンス

HGX B300 プラットフォームは、DeepSeek-R1 などの大規模言語モデルに対して、最大 2.6 倍のトレーニング性能を発揮します。 2 TB 以上の高速メモリと 14.4 TB/秒の NVLink Switch 帯域幅により、大規模なモデル トレーニングと高スループットの GPU 間通信を可能にします。

NVIDIA ネットワークによる HGX の高速化

データ センターはコンピューティングにおける新しいユニットです。そして、ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界水準のパフォーマンスと効率を実現し、コンピューティング リソースをフルに活用できます。

イーサネットをデプロイする AI クラウド データ センターの場合、HGX を NVIDIA Spectrum-X ネットワーキング プラットフォームと共に使用するのが最適です。このプラットフォームはイーサネット上で最高の AI パフォーマンスを発揮します。Spectrum-X スイッチと NVIDIA SuperNIC™ によって最適なリソース利用とパフォーマンス分離を実現したことにより、規模や AI ジョブの同時実行数を問わず、一貫性のある予測可能な結果を算出できます。 Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを実現します。NVIDIA はリファレンス デザインとして、NVIDIA HGX 8-GPU プラットフォーム、BlueField-3 SuperNICs、および Spectrum-4 スイッチをベースにした Dell PowerEdge XE9680 サーバーを搭載したハイパースケール生成 AI スーパーコンピューター Israel-1 を設計しました。

NVIDIA HGX 仕様

NVIDIA HGX は、4 基または 8 基の Hopper SXM を搭載した単一ベースボード、あるいは 8 基の NVIDIA Blackwell または NVIDIA Blackwell Ultra SXM を搭載した単一ベースボードで利用可能です。ハードウェアとソフトウェアの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。

HGX B300 HGX B200
フォーム ファクター 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor コア1 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor コア2 72 PFLOPS 72 PFLOPS
INT8 Tensor コア2 3 POPS 72 POPS
FP16/BF16 Tensor コア2 36 PFLOPS 36 PFLOPS
TF32 Tensor コア2 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor コア 10 TFLOPS 296 TFLOPS
メモリ合計 2.1 TB 1.4 TB
NVIDIA NVLink 第 5 世代 第 5 世代
NVIDIA NVLink Switch™ NVLink 5 スイッチ NVLink 5 スイッチ
NVLink GPU-to-GPU 帯域幅 1.8 TB/秒 1.8 TB/秒
合計 NVLink 帯域幅 14.4 TB/秒 14.4 TB/秒
ネットワーキング帯域幅 1.6 TB/秒 0.8 TB/秒
アテンション パフォーマンス3 2 倍 1 倍
HGX H200
4-GPU 8-GPU
フォーム ファクター 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
FP8 Tensor コア* 16 PFLOPS 32 PFLOPS
INT8 Tensor コア* 16 POPS 32 POPS
FP16/BF16 Tensor コア* 8 PFLOPS 16 PFLOPS
TF32 Tensor コア* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor コア 270 TFLOPS 540 TFLOPS
メモリ合計 564 GB HBM3E 1.1 TB HBM3E
GPU 合計帯域幅 19 TB/秒 38 TB/秒
NVLink 第 4 世代 第 4 世代
NVSwitch なし NVLink 4 スイッチ
NVSwitch GPU 間帯域幅 なし 900 GB/秒
合計帯域幅 3.6 TB/秒 7.2 TB/秒
ネットワーキング帯域幅 0.4 TB/秒 0.8 TB/秒
HGX H100
4-GPU 8-GPU
フォーム ファクター 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
FP8 Tensor コア* 16 PFLOPS 32 PFLOPS
INT8 Tensor コア* 16 POPS 32 POPS
FP16/BF16 Tensor コア* 8 PFLOPS 16 PFLOPS
TF32 Tensor コア* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor コア 270 TFLOPS 540 TFLOPS
メモリ合計 320 GB HBM3 640 GB HBM3
GPU 合計帯域幅 13 TB/秒 27 TB/秒
NVLink 第 4 世代 第 4 世代
NVSwitch なし NVLink 4 スイッチ
NVSwitch GPU 間帯域幅 なし 900 GB/秒
合計帯域幅 3.6 TB/秒 7.2 TB/秒
ネットワーキング帯域幅 0.4 TB/秒 0.8 TB/秒

NVIDIA Blackwell アーキテクチャの詳細をご覧ください。