NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™ 與 NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為各個資料中心提供深入解析。
NVIDIA HGX B300 將八顆 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,相較於 HGX B200,密集 FP4 Tensor 核心 FLOPS 提高 1.5 倍,而注意力效能則提升 2 倍,帶動資料中心邁入加速運算與生成式 AI 的新時代。NVIDIA Blackwell Ultra 技術的 HGX 系統是首屈一指的加速垂直擴充平台,相較於前一代,AI 工廠產量最高提升 30 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。
DeepSeek-R1 ISL = 32K,OSL = 8K,HGX B300 搭配 FP4 Dynamo 分散式架構。H100 搭配 FP8 動態批次處理。預期效能可能會有所變更。
前沿曲線展示決定 AI 工廠 Token 收益產量的關鍵參數。垂直軸表示 1 兆瓦 (MW) AI 工廠的每秒 GPU Token (TPS) 傳輸量,而水平軸則將使用者互動與回應能力量化為單一使用者的 TPS。HGX B300 在傳輸量與回應能力之間取得了最佳的平衡,相較於 NVIDIA Hopper 架構,AI 工廠產出效能整體提升 30 倍,締造最高的 Token 收益。
預期效能可能會有所變更。每 GPU 效能、FP8、16K BS、16K 序列長度。
HGX B300 平台為 DeepSeek-R1 等大型語言模型提供最高 2.6 倍的訓練效能。這款平台具備逾 2 TB 的高速記憶體,以及每秒 14.4 TB 的 NVLink Switch 頻寬,可實現大規模模型訓練以及 GPU 間的高傳輸量通訊。
資料中心是新的運算單元,而網路對於擴充整個資料中心的應用程式效能則是不可或缺的一環。HGX 搭配 NVIDIA Quantum InfiniBand 可提供一流的效能和效率,確保充分利用運算資源。
對於部署乙太網路的 AI 雲端資料中心,HGX 搭配 NVIDIA Spectrum-X 網路平台的效果最好,因為能透過乙太網路驅動最高的 AI 效能。它採用 Spectrum-X 交換器和 NVIDIA SuperNIC,實現最佳資源利用率和效能隔離,為各種規模的成千上萬個同時進行的 AI 作業提供穩定且可預測的結果。Spectrum-X 可實現先進的雲端多租戶和零信任安全架構。作為參考設計,NVIDIA 打造的 Israel-1 是一款超大規模的生成式 AI 超級電腦,採用 Dell PowerEdge XE9680 伺服器,以 NVIDIA HGX 8-GPU 平台、BlueField-3 SuperNIC 和 Spectrum-4 交換器為建置基礎。
NVIDIA HGX 提供單一基板,可搭配 4 或 8 個 Hopper SXM、或是 8 張 NVIDIA Blackwell GPU,或是 16 張 Blackwell Ultra SXM。這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。
| HGX B300 | HGX B200 | |
|---|---|---|
| 外形規格 | 8 個 NVIDIA Blackwell Ultra SXM | 8 個 NVIDIA Blackwell SXM |
| FP4 Tensor 核心1 | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor 核心2 | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor 核心2 | 3 POPS | 72 POPS |
| FP16/BF16 Tensor 核心2 | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core2 | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64 / FP64 Tensor 核心 | 10 TFLOPS | 296 TFLOPS |
| 總記憶體 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 第五代 | 第五代 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU 對 GPU 頻寬 | 每秒 1.8 TB | 每秒 1.8 TB |
| 總 NVLink 頻寬 | 每秒 14.4 TB | 每秒 14.4 TB |
| 網路頻寬 | 每秒 1.6 TB | 每秒 0.8 TB |
| 注意效能3 | 2x | 1x |
1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 相較於 Blackwell。
| HGX H200 | ||||
|---|---|---|---|---|
| 4-GPU | 8-GPU | |||
| 外形規格 | 4 個 NVIDIA H200 SXM | 8 個 NVIDIA H200 SXM | ||
| FP8 Tensor 核心* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 Tensor 核心* | 16 POPS | 32 POPS | ||
| FP16/BF16 Tensor 核心* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 Tensor 核心* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor 核心 | 270 TFLOPS | 540 TFLOPS | ||
| 總記憶體 | 564 GB HBM3E | 1.1 TB HBM3E | ||
| GPU 聚集頻寬 | 每秒 19 TB | 每秒 38 TB | ||
| NVLink | 第四代 | 第四代 | ||
| NVSwitch | N/A | NVLink 4 Switch | ||
| NVSwitch GPU 對 GPU 頻寬 | N/A | 每秒 900 GB | ||
| 總聚集頻寬 | 每秒 3.6 TB | 每秒 7.2 TB | ||
| 網路頻寬 | 每秒 0.4 TB | 每秒 0.8 TB | ||
| HGX H100 | ||||
|---|---|---|---|---|
| 4-GPU | 8-GPU | |||
| 外形規格 | 4 張 NVIDIA H100 SXM | 8 張 NVIDIA H100 SXM | ||
| FP8 Tensor 核心* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 Tensor 核心* | 16 POPS | 32 POPS | ||
| FP16/BF16 Tensor 核心* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 Tensor 核心* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor 核心 | 270 TFLOPS | 540 TFLOPS | ||
| 總記憶體 | 320 GB HBM3 | 640 GB HBM3 | ||
| GPU 聚集頻寬 | 每秒 13 TB | 每秒 27 TB | ||
| NVLink | 第四代 | 第四代 | ||
| NVSwitch | N/A | NVLink 4 Switch | ||
| NVSwitch GPU 對 GPU 頻寬 | N/A | 每秒 900 GB | ||
| 總聚集頻寬 | 每秒 3.6 TB | 每秒 7.2 TB | ||
| 網路頻寬 | 每秒 0.4 TB | 每秒 0.8 TB | ||
* 具備稀疏性
深入瞭解 NVIDIA Blackwell 架構