NVIDIA HGX プラットフォーム

あらゆるデータセンターで高度な AI とHPC を加速します。

概要
推論
ネットワーキング
仕様

概要
推論
ネットワーキング
仕様

AI とハイパフォーマンスコンピューティング向けに開発

AI、複雑なシミュレーション、膨大なデータセットは、極めて高速な相互接続を備えた複数の GPU と完全に高速化されたソフトウェアスタックを必要とします。 NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI および高性能コンピューティング（HPC）ソフトウェアスタックの能力を最大限に結集し、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供し、最速で洞察を得ることができます。

比類なきエンドツーエンドのアクセラレーテッドコンピューティングプラットフォーム

NVIDIA HGX B300 は、NVIDIA Blackwell Ultra GPU と高速相互接続を統合し、データセンターをアクセラレーテッドコンピューティングと生成 AI の新時代に推進します。前世代よりも最大 11 倍の推論性能を備えたアクセラレーテッドスケールアッププラットフォームとして、Blackwell ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロードに対応しています。

NVIDIA HGX は、最高の AI 性能を実現するため、NVIDIA Quantum-2 InfiniBand とSpectrum™-X Ethernet を使用して、最大 800 ギガビット / 秒 (Gb/s) の高度なネットワークオプションを搭載しています。 HGX はまた、ハイパースケール AI クラウドでクラウドネットワーク、コンポーザブルストレージ、ゼロトラストセキュリティ、GPU コンピューティングの弾力性を可能にする NVIDIA® BlueField®-3 データ処理ユニット (DPU) も搭載しています。

AI 推論：パフォーマンスと汎用性

予想パフォーマンスは変更される場合があります。トークン間レイテンシ（TTL）＝ 20 ミリ秒リアルタイム、最初のトークンレイテンシ（FTL）＝ 5 秒、入力シーケンス長 = 32,768、出力シーケンス長 = 1,028、8 x 8 ウェイ HGX H100 GPU 空冷式 vs. 1 x HGX B300 空冷式、GPUあたりのパフォーマンス比較；非集約推論を使用して提供されます。

リアルタイムの大規模言語モデル推論

HGX B300 は、Llama 3.1 405B などのモデルで、前世代の NVIDIA Hopper™ と比較して最大 11 倍の推論性能を実現します。第 2 世代の Transformer Engineは、カスタム Blackwell Tensor Coreテクノロジと TensorRT™-LLM のイノベーションを組み合わせて、大規模言語モデル（LLM）の推論を高速化します。

NVIDIA ネットワークによる HGX の高速化

データセンターはコンピューティングにおける新しい単位で、ネットワーキングはデータセンター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界水準のパフォーマンスと効率を実現し、コンピューティングリソースをフルに活用できます。

イーサネットをデプロイする AI クラウドデータセンターの場合、HGX は、イーサネット上で最高の AI パフォーマンスを発揮する NVIDIA Spectrum-X™ ネットワーキングプラットフォームと一緒に使用するのが最適です。Spectrum-X スイッチと NVIDIA SuperNIC™ を搭載し、最適なリソース利用とパフォーマンス分離を実現し、あらゆる規模で同時実行する数千もの AI ジョブに対して一貫性のある予測可能な結果を提供します。Spectrum-X は、高度なクラウドマルチテナンシーとゼロトラストセキュリティを実現します。NVIDIA は、リファレンスデザインとして、NVIDIA HGX 8-GPU プラットフォーム、BlueField-3 SuperNICs、および Spectrum-4 スイッチをベースにした Dell PowerEdge XE9680 サーバーを搭載したハイパースケール生成 AI スーパーコンピューター Israel-1 を設計しました。

NVIDIA HGX 仕様

NVIDIA HGX は、4 基または 8 基の Hopper SXM を搭載した単一ベースボード、あるいは 8 基の NVIDIA Blackwell または NVIDIA Blackwell Ultra SXM を搭載した単一ベースボードで利用可能です。ハードウェアとソフトウェアのこれらの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。

Blackwell
Hopper

	HGX B300	HGX B200
フォームファクター	8x NVIDIA Blackwell Ultra SXM	8x NVIDIA Blackwell SXM
FP4 Tensor コア**	144 PFLOPS \| 105 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 Tensor コア*	72 PFLOPS	72 PFLOPS
INT8 Tensor コア*	2 POPS	72 POPS
FP16/BF16 Tensor コア*	36 PFLOPS	36 PFLOPS
TF32 Tensor コア*	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
FP64/FP64 Tensor コア	10 TFLOPS	296 TFLOPS
メモリ合計	最大 2.3TB	1.4TB
NVLink	第 5 世代	第 5 世代
NVIDIA NVSwitch™ の特長	NVLink 5 スイッチ	NVLink 5 スイッチ
NVSwitch GPU から GPU への帯域幅	1.8TB/s	1.8TB/秒
合計 NVLink 帯域幅	14.4TB/秒	14.4TB/秒

* 疎性あり

** スパース性あり |スパース性なし

NVIDIA Blackwell データシートを読む

	HGX H200
	4-GPU	8-GPU
フォームファクター	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
FP8 Tensor コア*	16 PFLOPS	32 PFLOPS
INT8 Tensor コア*	16 POPS	32 POPS
FP16/BF16 Tensor コア*	8 PFLOPS	16 PFLOPS
TF32 Tensor コア*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor コア	270 TFLOPS	540 TFLOPS
メモリ合計	564GB HBM3e	1.1TB HBM3e
GPU 合計帯域幅	19GB/s	38GB/s
NVLink	第 4 世代	第 4 世代
NVSwitch	なし	NVLink 4 スイッチ
NVSwitch GPU から GPU への帯域幅	なし	900GB/秒
合計帯域幅	3.6TB/s	7.2TB/秒

	HGX H100
	4-GPU	8-GPU
フォームファクター	NVIDIA H100 SXM 4 基	NVIDIA H100 SXM 8 基
FP8 Tensor コア*	16 PFLOPS	32 PFLOPS
INT8 Tensor コア*	16 POPS	32 POPS
FP16/BF16 Tensor コア*	8 PFLOPS	16 PFLOPS
TF32 Tensor コア*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor コア	270 TFLOPS	540 TFLOPS
メモリ合計	320GB HBM3	640GB HBM3
GPU 合計帯域幅	13GB/s	27GB/s
NVLink	第 4 世代	第 4 世代
NVSwitch	なし	NVLink 4 スイッチ
NVSwitch GPU から GPU への帯域幅	なし	900GB/秒
合計帯域幅	3.6TB/s	7.2TB/秒

* 疎性あり

NVIDIA HGX H100 および HGX H200 データシートを読む

NVIDIA Blackwell アーキテクチャの詳細をご覧ください。

詳細を見る