NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

推動生成式人工智慧新紀元。

釋放即時兆級參數模型

GB200 NVL72 機架連接 36 個 Grace CPU 和 72 個 Blackwell GPU。 GB200 NVL72 搭載液冷的機架級解決方案,擁有 72 個使用 NVLink 互聯的 GPU,能夠作為單一大型的 GPU 使用,並為擁有兆級參數的 LLM 提供 30 倍的即時推論速度。

GB200 Grace Blackwell 超級晶片是 NVIDIA GB200 NVL72 的關鍵元件,使用 NVIDIA® NVLink®-C2C 連接兩個高效能的 NVIDIA Blackwell Tensor Core GPU 和一個 NVIDIA Grace CPU。

適用於即時兆級參數推論和訓練的 Blackwell 機架規模架構

NVIDIA GB200 NVL72 是採用單一機架的百萬兆級電腦。NVLink 交換器系統具備 36 個 GB200,由史上最大型的 NVIDIA® NVLink® 網域互連,為人工智慧和高效能運算 (HPC) 工作負載提供每秒 130 TB (TB/秒) 的低延遲 GPU 通訊。

重點

大幅強化新一代人工智慧和加速運算

大型語言模型推論

30 倍

大型語言模型訓練

4 倍

節能

25 倍

資料處理

18 倍

"LLM inference and energy efficiency: TTL = 50 milliseconds (ms) real time, FTL = 5s, 32,768 input/1,024 output, NVIDIA HGX™ H100 scaled over InfiniBand (IB) vs. GB200 NVL72, training 1.8T MOE 4096x HGX H100 scaled over IB vs. 456x GB200 NVL72 scaled over IB. Cluster size: 32,768
A database join and aggregation workload with Snappy / Deflate compression derived from TPC-H Q4 query. Custom query implementations for x86, H100 single GPU and single GPU from GB200 NLV72 vs. Intel Xeon 8480+
此為預計效能,之後將有可能更新。

即時大型語言模型推論

GB200 NVL72 引入了尖端功能和支援 FP4 AI 的第二代 Transformer Engine,並可與第五代 NVIDIA NVLink 結合使用,能為兆級參數語言模型提供快 30 倍的即時 LLM 推論效能。 新一代 Tensor Core 是達成此項進步的關鍵,它引入了新的微縮度格式,提供高精度和更高的吞吐量。 不僅如此,GB200 NVL72 使用 NVLink 和液體冷卻來打造單一大型 72-GPU 機架來克服通訊瓶頸。

大規模訓練

GB200 包含更快速的第二代 Transformer Engine,具備 FP8 精度,可大規模將大型語言模型的訓練速度大幅提升 4 倍。第五代 NVLink 可支援每秒 1.8 TB (TB/秒) 的 GPU 至 GPU 互連技術、InfiniBand 網路和 NVIDIA Magnum IO™ 軟體,為這項突破性技術錦上添花。

節能基礎架構

水冷 GB200 NVL72 機架可減少資料中心的碳足跡和能源消耗。水冷系統可增加運算密度,減少佔地面積,促進大型 NVLink 網域架構的高頻寬和低延遲 GPU 通訊。與 NVIDIA H100 氣冷式基礎架構相比,GB200 可在相同功率下提供 25 倍的效能,同時降低耗水量 。

資料處理

資料庫在處理和分析企業的大量資料方面扮演關鍵角色。GB200 利用 NVIDIA Blackwell 架構中具有高頻寬記憶體效能的 NVLink-C2C 和專用解壓縮引擎,將關鍵資料庫查詢的速度提升為 CPU 的 18 倍,總擁有成本降低 5 倍。

特色

技術突破

Blackwell 架構

NVIDIA Blackwell 架構在加速運算領域取得突破性進展,以無與倫比的效能、效率和擴充性,驅動了計算領域的新紀元。

NVIDIA Grace CPU

NVIDIA Grace CPU 是一款突破性處理器,專為執行人工智慧、雲端和高效能運算 (HPC) 應用程式的現代資料中心而設計。這款處理器能提供卓越的效能和記憶體頻寬,且與現今的頂尖伺服器處理器相比,能源效率高達 2 倍。

第五代 NVIDIA NVLink

要釋放百萬兆級運算和兆級參數人工智慧模型的完整潛能,伺服器叢集中每個 GPU 之間就必須能快速流暢地通訊。第五代 NVLink 是可擴充互連技術,可為兆級和數兆級參數人工智慧模型釋放加速效能。

NVIDIA 網路

資料中心網路是分散式人工智慧模型訓練和生成式人工智慧效能的骨幹,在推動人工智慧進步和效能方面扮演關鍵要角。 NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum-X800 乙太網路和 NVIDIA BlueField-3 DPU 能夠在成千上百個 Blackwell GPU 中有效進行擴充,實現最佳應用程式效能。

規格

GB200 NVL721 規格

  GB200 NVL72 GB200 Grace Blackwell Superchip
組成 36 Grace CPU : 72 Blackwell GPUs 1 Grace CPU : 2 Blackwell GPU
FP4 Tensor 核心2 1,440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor 核心2 720 PFLOPS 20 PFLOPS
INT8 Tensor 核心2 720 POPS 20 POPS
FP16/BF16 Tensor 核心2 360 PFLOPS 10 PFLOPS
TF32 Tensor 核心 180 PFLOPS 5 PFLOPS
FP32 6,480 TFLOPS 180 TFLOPS
FP64 3,240 TFLOPS 90 TFLOPS
FP64 Tensor 核心 3,240 TFLOPS 90 TFLOPS
GPU 記憶體頻寬 最高 13.5 TB HBM3e | 576 TB/s 最高 384 GB HBM3e | 16 TB/s
NVLink 記憶體頻寬 130TB/s 3.6TB/s
CPU 核心數 2592 個 Arm® Neoverse V2 核心 72 Arm Neoverse V2 核心
CPU 記憶體頻寬 最高 17 TB LPDDR5X | Up to 18.4 TB/s 最高 480GB LPDDR5X | Up to 512 GB/s

開始使用

隨時掌握最新消息

訂閱以在 NVIDIA Blackwell 上市時獲得通知。