NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

生成 AI の新時代にパワーを与えます。

リアルタイムの兆単位パラメーター モデルを解放する

GB200 NVL72 は、36 個の Grace CPU と 72 個の Blackwell GPU を 1 つラックスケール デザインで接続します。GB200 NVL72 は、水冷式ラックスケール ソリューションで、72-GPU NVLink ドメインが 1 つの巨大 GPU として機能し、兆単位パラメーター LLM 推論のリアルタイム性を 30 倍高速化します。

GB200 Grace Blackwell Superchip は、NVIDIA GB200 NVL72 の主要コンポーネントであり、NVIDIA® NVLink®-C2C インターコネクトを使用して、2 基の高性能 NVIDIA Blackwell Tensor コア GPU と NVIDIA Grace CPU を 2 基の Blackwell GPU に接続します。

Blackwell のラックスケール アーキテクチャによる兆単位パラメーターのリアルタイムの推論とトレーニング

NVIDIA GB200 NVL72 は 1 つのラックに収められたエクサスケール コンピューターです。史上最大の NVIDIA® NVLink® ドメインで 36 個の GB200 が相互接続される NVLink Switch System は、AI ワークロードと HPC (ハイパフォーマンス コンピューティング) ワークロードで毎秒 130 テラバイトの低遅延 GPU 通信を提供します。

ハイライト

次世代の AI とアクセラレーテッド コンピューティングをスーパーチャージ

LLM 推論

30 倍

LLM トレーニング

4 倍

電力効率

25 倍

データ処理

18 倍

LLM 推論とエネルギー効率: TTL = 50ミリ秒 (ms)、FTL = 5s、32,768 入力/1,024 出力、NVIDIA HGX™ H100 を InfiniBand (IB) でスケール vs. GB200 NVL72、トレーニング 1.8T MOE 4096x HGX H100 でスケール IB vs. 456x GB200 NVL72 でスケール IB。クラスター サイズ: 32,768
TPC-H Q4 クエリから派生した Snappy/Deflate 圧縮によるデータベースの結合と集約のワークロード。x86、H100 シングル GPU、および GB200 NLV72 vs. Intel Xeon 8480+ のシングル GPU のカスタム クエリ実装
予想されるパフォーマンスは変更される可能性があります。

リアルタイム LLM 推論

GB200 NVL72 は、最先端の機能と、FP4 AIを可能にする第 2 世代 Transformer Engine を導入し、第 5 世代 NVIDIA NVLink と組み合わせることで、兆単位のパラメーター言語モデルに対して 30 倍高速なリアルタイム LLM 推論性能を提供します。この進化は、新しいマイクロスケーリング フォーマットを導入した新世代の Tensor コアによって可能になり、高い精度とより高いスループットを実現します。さらに、GB200 NVL72 は、NVLink と水冷を利用して、通信のボトルネックを克服することができる 1 つの巨大な 72-GPU ラックを実現します。

大規模なトレーニング

GB200 には、FP8 精度を備えた、より高速な第 2 世代の Transformer Engine が搭載されており、大規模言語モデルの学習を 4 倍高速化することができます。この画期的な技術を補完するのが第 5 世代 NVLink です。これは毎秒 1.8 テラバイトの GPU 間相互接続、InfiniBand ネットワーク、NVIDIA Magnum IO™ ソフトウェアを提供します。

電力効率に優れたインフラ

水冷 GB200 NVL72 ラックは、データ センターの二酸化炭素排出量とエネルギー消費を削減します。水冷は計算処理密度を高め、使用されるフロア面積を減らし、大規模な NVLink ドメイン アーキテクチャで GPU 通信を高帯域、低遅延にします。NVIDIA H100 空冷インフラと比較すると、GB200 は同じ電力でパフォーマンスが 40 倍になり、同時に水の消費量を 13 分の 1 以上削減します。

データ処理

データベースは、企業の大量のデータの操作、加工、分析において重要な役割を果たします。GB200 は高帯域幅メモリ性能の NVLink-C2CNVIDIA Blackwell アーキテクチャの専用 Decompression Engine を活用し、CPU と比較して重要なデータベース クエリを 18 倍高速化し、TCO を 5 倍にします。

特長

技術的なブレイクスルー

Blackwell アーキテクチャ

NVIDIA Blackwell アーキテクチャは、アクセラレーテッド コンピューティングに画期的な進歩をもたらし、比類のないパフォーマンス、効率性、スケールでコンピューティングの新時代を強化します。

NVIDIA Grace CPU

NVIDIA Grace CPU は、AI、クラウド、ハイパフォーマンス コンピューティング (HPC) アプリケーションを実行する最新のデータ センター向けに設計された画期的なプロセッサです。現代の主要なサーバー プロセッサと比べて電力効率が 2 倍となり、パフォーマンスとメモリ帯域幅に優れています。

第 5 世代 NVIDIA NVLink

エクサスケール コンピューティングと兆単位パラメーターの AI モデルの可能性を最大限に引き出すには、サーバー クラスター内のすべての GPU 間で高速かつシームレスな通信が必要となります。第 5 世代の NVLink はスケールアップなインターコネクトであり、1 兆から数兆単位のパラメーターの AI モデルでパフォーマンスを高速化します

NVIDIA ネットワーキング

データ センターのネットワークは、分散 AI モデルのトレーニングと生成 AI パフォーマンスのバックボーンとして機能し、AI の進化とパフォーマンスを推進する上で重要な役割を果たします。 NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum-X800 Ethernet、NVIDIA BlueField-3 DPU は、数百から数千単位の Blackwell GPU で効率的なスケーラビリティを可能にし、アプリケーション パフォーマンスを最適化します。

仕様

GB200 NVL721 の仕様

  GB200 NVL72 GB200 Grace Blackwell Superchip
構成 36 Grace CPU : 72 Blackwell GPU 1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core2 1,440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor Core2 720 PFLOPS 20 PFLOPS
INT8 Tensor Core2 720 POPS 20 POPS
FP16/BF16 Tensor コア2 360 PFLOPS 10 PFLOPS
TF32 Tensor コア 180 PFLOPS 5 PFLOPS
FP32 6,480 TFLOPS 180 TFLOPS
FP64 3,240 TFLOPS 90 TFLOPS
FP64 Tensor Core 3,240 TFLOPS 90 TFLOPS
GPU メモリ帯域幅 最大 13.5 TB HBM3e | 576 TB/秒 最大 384 GB HBM3e | 16 TB/秒
NVLink メモリ帯域幅 130TB/秒 3.6 TB/秒
CPU コア数 2592 個の Arm® Neoverse V2 コア 72 Arm Neoverse V2 コア
CPU メモリ帯域幅 最大 17 TB LPDDR5X | 最高 18.4 TB/秒 最大 480GB LPDDR5X | 最高 512 GB/秒

今すぐ始める

最新情報を受け取る

登録すると、NVIDIA Blackwell の販売開始時にお知らせいたします。