NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

驅動運算新時代

釋放即時兆級參數模型

GB200 NVL72 機架連接 36 個 Grace CPU 和 72 個 Blackwell GPU。 GB200 NVL72 搭載液冷的機架級解決方案,擁有 72 個使用 NVLink 互聯的 GPU,能夠作為單一大型的 GPU 使用,並為擁有兆級參數的 LLM 提供 30 倍的即時推論速度。

GB200 Grace Blackwell 超級晶片是 NVIDIA GB200 NVL72 的關鍵元件,使用 NVIDIA® NVLink®-C2C 連接兩個高效能的 NVIDIA Blackwell Tensor Core GPU 和一個 NVIDIA Grace CPU。

適用於即時兆級參數推論和訓練的 Blackwell 機架規模架構

NVIDIA GB200 NVL72 是採用單一機架的百萬兆級電腦。NVLink 交換器系統具備 36 個 GB200,由史上最大型的 NVIDIA® NVLink® 網域互連,為人工智慧和高效能運算 (HPC) 工作負載提供每秒 130 TB (TB/秒) 的低延遲 GPU 通訊。

重點

大幅強化新一代人工智慧和加速運算

大型語言模型推論

30 倍

大型語言模型訓練

4 倍

節能

25 倍

資料處理

18 倍

"LLM inference and energy efficiency: TTL = 50 milliseconds (ms) real time, FTL = 5s, 32,768 input/1,024 output, NVIDIA HGX™ H100 scaled over InfiniBand (IB) vs. GB200 NVL72, training 1.8T MOE 4096x HGX H100 scaled over IB vs. 456x GB200 NVL72 scaled over IB. Cluster size: 32,768
A database join and aggregation workload with Snappy / Deflate compression derived from TPC-H Q4 query. Custom query implementations for x86, H100 single GPU and single GPU from GB200 NLV72 vs. Intel Xeon 8480+
此為預計效能,之後將有可能更新。

即時大型語言模型 (LLM) 推論

GB200 NVL72 引入了最先進的技術和第二代 Transformer 引擎,支援 FP4 AI,結合第五代 NVLink 後,可以將上兆參數語言模型的即時推論效能加快 30 倍。新一代 Tensor Core 是達成此項進步的關鍵,它導入了新的微擴充格式,提供高準確度和更高的傳輸量。此外,GB200 NVL72 使用 NVLink 和液體冷卻來打造單一大型 72-GPU 機架來克服通訊瓶頸。

大規模訓練

GB200 NVL72 配備第二代 Transformer 引擎,具備 FP8 精度,可以將大型語言模型的大規模訓練加快 4 倍。這一突破結合了第五代 NVLink,提供每秒 1.8 TB 的 GPU 至 GPU 互連、InfiniBand 網路和 NVIDIA Magnum IO™ 軟體支援。

節能基礎架構

GB200 NVL72 液冷機架可以減少資料中心的碳足跡和能源消耗,並提高運算密度、節省空間,並在大型 NVLink 網域架構中實現高頻寬、低延遲 GPU 通訊。相較於 NVIDIA H100 氣冷式基礎架構,GB200 同等功耗下效能增長 25 倍,同時可以減少用水量。

資料處理

資料庫在處理和分析企業的大量資料方面扮演關鍵角色。GB200 利用 NVIDIA Blackwell 架構中具有高頻寬記憶體效能的 NVLink-C2C 和專用解壓縮引擎,將關鍵資料庫查詢的速度提升為 CPU 的 18 倍,總擁有成本降低 5 倍。

特色

技術突破

Blackwell 架構

NVIDIA Blackwell 架構在加速運算領域取得突破性進展,以無與倫比的效能、效率和擴充性,驅動了計算領域的新紀元。

NVIDIA Grace CPU

NVIDIA Grace CPU 是一款突破性處理器,專為執行人工智慧、雲端和高效能運算 (HPC) 應用程式的現代資料中心而設計。這款處理器能提供卓越的效能和記憶體頻寬,且與現今的頂尖伺服器處理器相比,能源效率高達 2 倍。

第五代 NVIDIA NVLink

要釋放百萬兆級運算和兆級參數人工智慧模型的完整潛能,伺服器叢集中每個 GPU 之間就必須能快速流暢地通訊。第五代 NVLink 是可擴充互連技術,可為兆級和數兆級參數人工智慧模型釋放加速效能。

NVIDIA 網路

資料中心網路是分散式人工智慧模型訓練和生成式人工智慧效能的骨幹,在推動人工智慧進步和效能方面扮演關鍵要角。 NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum-X800 乙太網路和 NVIDIA BlueField-3 DPU 能夠在成千上百個 Blackwell GPU 中有效進行擴充,實現最佳應用程式效能。

規格

GB200 NVL721 規格

  GB200 NVL72 GB200 Grace Blackwell Superchip
組成 36 個 Grace CPU、72 個 Blackwell GPU 1 個 Grace CPU、2 個 Blackwell GPU
FP4 Tensor 核心2 1,440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor 核心2 720 PFLOPS 20 PFLOPS
INT8 Tensor 核心2 720 POPS 20 POPS
FP16/BF16 Tensor 核心2 360 PFLOPS 10 PFLOPS
TF32 Tensor 核心 180 PFLOPS 5 PFLOPS
FP32 6,480 TFLOPS 180 TFLOPS
FP64 3,240 TFLOPS 90 TFLOPS
FP64 Tensor 核心 3,240 TFLOPS 90 TFLOPS
GPU 記憶體頻寬 最高 13.5 TB HBM3e | 每秒 576 TB 最高 384 GB HBM3e | 每秒 16 TB
NVLink 記憶體頻寬 每秒 130 TB 每秒 3.6 TB
CPU 核心數 2592 個 Arm® Neoverse V2 核心 72 個 Arm Neoverse V2 核心
CPU 記憶體頻寬 最高 17 TB LPDDR5X | 最高每秒 18.4 TB 最高 480GB LPDDR5X | 最高每秒 512 GB

開始使用

隨時掌握最新消息

訂閱以在 NVIDIA Blackwell 上市時獲得通知。