NVIDIA HGX AI
スーパーコンピューター

世界をリードする AI コンピューティング プラットフォーム。

AI と HPC に特化した設計

AI、複雑なシミュレーション、大規模なデータセットには、非常に高速な相互接続と完全に高速化されたソフトウェア スタックを備えた複数の GPU が必要になります。NVIDIA HGX™ AI スーパーコンピューティング プラットフォームは、NVIDIA GPU、NVLink®、NVIDIA ネットワーク、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェアスタックのフルパワーを結集し、アプリケーション パフォーマンスを最大化し、インサイトが得られるまでの時間を最短化します。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX B200 と HGX B100 は NVIDIA Blackwell Tensor コア GPU と高速相互接続を統合し、データ センターを新しい時代に押し上げます。Blackwell ベースの HGX システムは、推論性能が前世代の最大 15 倍となるプレミア アクセラレーテッド スケールアップ プラットフォームであり、処理要求が非常に厳しい生成 AI、データ分析、HPC のワークロード向けに設計されています。

NVIDIA HGX H200 は H200 Tensor コア GPU と高速接続を組み合わせ、あらゆるデータ センターに非常に優れたパフォーマンス、スケーラビリティ、セキュリティを届けます。最大 8 基の GPU という構成はかつてない高速化を実現し、32 PFLOPS という圧倒的なパフォーマンスと組み合わされることで、AI および HPC 向けの世界で最もパワフルでスケールアップしたアクセラレーテッド サーバー プラットフォームとなります。

HGX H200 と HGX H100 の両方には、高度なネットワーキング オプションが含まれ、そのスピードは最高で 400 ギガビット/秒 (Gb/s) になります。NVIDIA Quantum-2 InfiniBand と Spectrum™-X Ethernet を活用し、最高の AI パフォーマンスを提供します。HGX H200 と HGX H100 には、NVIDIA® BlueField®-3 データ プロセシング ユニット (DPU) も搭載されており、ハイパースケール AI クラウドでクラウド ネットワーキング、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングの順応性を実現します。

HGX Stack

ディープラーニング推論: パフォーマンスと汎用性

次世代の大規模言語モデルのためのリアルタイム推論

予想されるパフォーマンスは変更される可能性があります。トークン間のレイテンシ (TTL) = 50 ミリ秒 (ms) リアルタイム、最初のトークンのレイテンシ (FTL) = 5s、入力シーケンス長 = 32,768、出力シーケンス長 = 1,028、8x 8ウェイ NVIDIA HGX™ H100 GPU 空冷と 1x 8ウェイ HGX B200 空冷の比較、GPU ごとのパフォーマンス比較​。

HGX B200 は、GPT-MoE-1.8T などの巨大なモデルで、前世代の NVIDIA Hopper™ と比較して最大 15 倍の推論パフォーマンスに達しますこの第 2 世代の Transformer Engine ではカスタムの Blackwell Tensor コア テクノロジと革新的な TensorRT™-LLM および Nemo™ フレームワークを組み合わせ、大規模言語モデル (LLM) と混合エキスパート (MoE) モデルの推論を加速します。

ディープラーニング トレーニング: パフォーマンスとスケーラビリティ

トレーニング パフォーマンスを次のレベルに引き上げる

予想されるパフォーマンスは変更される可能性があります。32,768 GPU スケール、4,096x 8ウェイ HGX H100 空冷クラスター: 400G InfiniBand (IB) ネットワーク、4,096x 8ウェイ HGX B200 空冷クラスター: 400G IB ネットワーク。

この第 2 世代の Transformer Engine は 8 ビットの浮動小数点 (FP8) と新しい精度を備え、GPT-MoE-1.8T などの大規模言語モデルで驚異的な 3 倍の速さでのトレーニングを可能にします。このブレイクスルーを補完するのが第 5 世代の NVLink、1.8TB/秒 の GPU 間相互接続、InfiniBand ネットワーキング、NVIDIA Magnum IO™ ソフトウェアです。これらを組み合わせることで、企業や広範囲の GPU コンピューティング クラスターで効率的なスケーラビリティが実現します。

NVIDIA ネットワークによる HGX の高速化

データ センターはコンピューティングにおける新しい単位であり、ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界最高水準のパフォーマンスと効率性を実現し、コンピューティング リソースを最大限に活用します。

イーサネットを導入する AI クラウド データ センターでは、HGX を NVIDIA Spectrum-X ネットワーキング プラットフォームと共に使用するのが最適です。このプラットフォームは 400Gb/秒 イーサネット上で最高の AI パフォーマンスを発揮します。NVIDIA Spectrum™-4 スイッチと BlueField-3 DPU を備えた Spectrum-X は、最適なリソース使用率とパフォーマンス分離により、規模を問わず、数千の同時 AI ジョブに対して一貫した予測可能な成果を提供します。Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを可能にします。 NVIDIA Spectrum-X のリファレンス デザインとして、NVIDIA は Israel-1 を設計しました。これは NVIDIA HGX H200 または H100 8 基の GPU プラットフォーム、BlueField-3 DPU、Spectrum-4 スイッチをベースとする Dell PowerEdge XE9680 サーバーで構築されたハイパースケールの生成 AI スーパーコンピューターです。

HGX と NVIDIA ネットワーキングを接続する

  NVIDIA Quantum-2 InfiniBand プラットフォーム:

Quantum-2 スイッチ、ConnectX-7 アダプター、BlueField-3 DPU

NVIDIA Spectrum-X プラットフォーム:

Spectrum-4 スイッチ、 BlueField-3 DPU、 Spectrum-X ライセンス

NVIDIA Spectrum イーサネット プラットフォーム:

Spectrum スイッチ、ConnectX アダプター、BlueField DPU

ディープラーニング トレーニング Best Better Good
科学的シミュレーション Best Better Good
データ分析 Best Better Good
ディープラーニング推論 Best Better Good

NVIDIA HGX 仕様

NVIDIA HGX は、4 基の H200 または H100 GPU もしくは 8 基の H200、H100、B200、B100 GPU を備えたシングル ベースボードで利用できます。ハードウェアとソフトウェアのこのパワフルな組み合わせは、かつてない AI スーパーコンピューティング性能の基礎を築きます。

  HGX B200 HGX B100
GPU HGX B200 8-GPU HGX B100 8-GPU
フォーム ファクター NVIDIA B200 SXM 8 基 NVIDIA B100 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/FP4)* 320TF/18PF/36PF/72PF/144PF 240TF/14PF/28PF/56PF/112PF
メモリ 最大 1.5 TB 最大 1.5 TB
NVIDIA NVLink 第 5 世代 第 5 世代
NVIDIA NVSwitch™ 第 4 世代 第 4 世代
NVSwitch GPU 間帯域幅 1.8TB/秒 1.8TB/秒
合計帯域幅 14.4TB/秒 14.4TB/秒
  HGX H200
  4-GPU 8-GPU
GPU HGX H200 4-GPU HGX H200 8-GPU
フォーム ファクター NVIDIA H200 SXM 4 基 NVIDIA H200 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
メモリ 最大 564GB 最大 1.1 TB
NVLink 第 4 世代 第 4 世代
NVSwitch なし 第 3 世代
NVSwitch GPU 間帯域幅 なし 900GB/秒
合計帯域幅 3.6TB/秒 7.2TB/秒
  HGX H100
  4-GPU 8-GPU
GPU HGX H100 4-GPU HGX H100 8-GPU
フォーム ファクター NVIDIA H100 SXM 4 基 NVIDIA H100 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
メモリ 最大 320GB 最大 640GB
NVLink 第 4 世代 第 4 世代
NVSwitch なし 第 3 世代
NVLink Switch なし なし
NVSwitch GPU 間帯域幅 なし 900GB/秒
合計帯域幅 3.6TB/秒 7.2TB/秒

NVIDIA H200 Tensor コア GPU の詳細をご覧ください。