NVIDIA HGX 平台

在每個資料中心加速推動進階 AI。

概覽

無與倫比的端到端加速運算平台

NVIDIA HGX™ 平台整合 NVIDIA GPUNVIDIA NVLink™NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為各個資料中心提供深入解析。

NVIDIA HGX B300 將八顆 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,相較於 HGX B200,密集 FP4 Tensor 核心 FLOPS 提高 1.5 倍,而注意力效能則提升 2 倍,帶動資料中心邁入加速運算與生成式 AI 的新時代。NVIDIA Blackwell Ultra 技術的 HGX 系統是首屈一指的加速垂直擴充平台,相較於前一代,AI 工廠產量最高提升 30 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA Blackwell Ultra 產品資料表

NVIDIA Blackwell Ultra 是專為大規模 AI 推論而設計,實現更智慧、更快速且更高效的 AI。瞭解 NVIDIA HGX B300 與 GB300 NVL72 的規格和效能。

NVIDIA HGX H100 與 HGX H200 產品資料表

探索 NVIDIA HGX H100 與 H200 系統的功能和特點。這份產品資料表提供了規格與效能的詳細資訊。

專為 AI 與高效能運算打造

AI、複雜的模擬與大規模資料集,必須以多顆 GPU 搭配超高速互連技術,以及完整加速的軟體堆疊。NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™ 與 NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為各個資料中心提供深入解析。

無與倫比的端到端加速運算平台

NVIDIA HGX B300 將 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,推動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA Blackwell 架構的 HGX 系統是頂尖的加速擴充平台,推論效能比前一代提升了 11 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA HGX 包含先進的網路選項,速度最高每秒 800 Gb,採用 NVIDIA Quantum-X800 InfiniBand 與 Spectrum™-X 乙太網路,締造最高的 AI 效能。HGX 還包含 NVIDIA BlueField®-3 資料處理器 (DPU),可在超大規模 AI 雲端實現雲端網路、組合式儲存空間、零信任安全性,以及 GPU 運算彈性。

AI 推理效能與多功能性

DeepSeek-R1 ISL = 32K,OSL = 8K,HGX B300 搭配 FP4 Dynamo 分散式架構。H100 搭配 FP8 動態批次處理。預期效能可能會有所變更。

透過 HGX B300 提升 AI 工廠產能,推動營收成長

前沿曲線展示決定 AI 工廠 Token 收益產量的關鍵參數。垂直軸表示 1 兆瓦 (MW) AI 工廠的每秒 GPU Token (TPS) 傳輸量,而水平軸則將使用者互動與回應能力量化為單一使用者的 TPS。HGX B300 在傳輸量與回應能力之間取得了最佳的平衡,相較於 NVIDIA Hopper 架構,AI 工廠產出效能整體提升 30 倍,締造最高的 Token 收益。

大型 AI 模型的可擴充訓練

預期效能可能會有所變更。每 GPU 效能、FP8、16K BS、16K 序列長度。

全新境界的訓練效能

HGX B300 平台為 DeepSeek-R1 等大型語言模型提供最高 2.6 倍的訓練效能。這款平台具備逾 2 TB 的高速記憶體,以及每秒 14.4 TB 的 NVLink Switch 頻寬,可實現大規模模型訓練以及 GPU 間的高傳輸量通訊。

以 NVIDIA 網路技術加速 HGX 平台

資料中心是新的運算單元,而網路對於擴充整個資料中心的應用程式效能則是不可或缺的一環。HGX 搭配 NVIDIA Quantum InfiniBand 可提供一流的效能和效率,確保充分利用運算資源。

對於部署乙太網路的 AI 雲端資料中心,HGX 搭配 NVIDIA Spectrum-X 網路平台的效果最好,因為能透過乙太網路驅動最高的 AI 效能。它採用 Spectrum-X 交換器和 NVIDIA SuperNIC,實現最佳資源利用率和效能隔離,為各種規模的成千上萬個同時進行的 AI 作業提供穩定且可預測的結果。Spectrum-X 可實現先進的雲端多租戶和零信任安全架構。作為參考設計,NVIDIA 打造的 Israel-1 是一款超大規模的生成式 AI 超級電腦,採用 Dell PowerEdge XE9680 伺服器,以 NVIDIA HGX 8-GPU 平台、BlueField-3 SuperNIC 和 Spectrum-4 交換器為建置基礎。

NVIDIA HGX 規格

NVIDIA HGX 提供單一基板,可搭配 4 或 8 個 Hopper SXM、或是 8 張 NVIDIA Blackwell GPU,或是 16 張 Blackwell Ultra SXM。這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。

HGX B300 HGX B200
外形規格 8 個 NVIDIA Blackwell Ultra SXM 8 個 NVIDIA Blackwell SXM
FP4 Tensor 核心1 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor 核心2 72 PFLOPS 72 PFLOPS
INT8 Tensor 核心2 3 POPS 72 POPS
FP16/BF16 Tensor 核心2 36 PFLOPS 36 PFLOPS
TF32 Tensor Core2 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64 / FP64 Tensor 核心 10 TFLOPS 296 TFLOPS
總記憶體 2.1 TB 1.4 TB
NVIDIA NVLink 第五代 第五代
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU 對 GPU 頻寬 每秒 1.8 TB 每秒 1.8 TB
總 NVLink 頻寬 每秒 14.4 TB 每秒 14.4 TB
網路頻寬 每秒 1.6 TB 每秒 0.8 TB
注意效能3 2x 1x
HGX H200
4-GPU 8-GPU
外形規格 4 個 NVIDIA H200 SXM 8 個 NVIDIA H200 SXM
FP8 Tensor 核心* 16 PFLOPS 32 PFLOPS
INT8 Tensor 核心* 16 POPS 32 POPS
FP16/BF16 Tensor 核心* 8 PFLOPS 16 PFLOPS
TF32 Tensor 核心* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor 核心 270 TFLOPS 540 TFLOPS
總記憶體 564 GB HBM3E 1.1 TB HBM3E
GPU 聚集頻寬 每秒 19 TB 每秒 38 TB
NVLink 第四代 第四代
NVSwitch N/A NVLink 4 Switch
NVSwitch GPU 對 GPU 頻寬 N/A 每秒 900 GB
總聚集頻寬 每秒 3.6 TB 每秒 7.2 TB
網路頻寬 每秒 0.4 TB 每秒 0.8 TB
HGX H100
4-GPU 8-GPU
外形規格 4 張 NVIDIA H100 SXM 8 張 NVIDIA H100 SXM
FP8 Tensor 核心* 16 PFLOPS 32 PFLOPS
INT8 Tensor 核心* 16 POPS 32 POPS
FP16/BF16 Tensor 核心* 8 PFLOPS 16 PFLOPS
TF32 Tensor 核心* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor 核心 270 TFLOPS 540 TFLOPS
總記憶體 320 GB HBM3 640 GB HBM3
GPU 聚集頻寬 每秒 13 TB 每秒 27 TB
NVLink 第四代 第四代
NVSwitch N/A NVLink 4 Switch
NVSwitch GPU 對 GPU 頻寬 N/A 每秒 900 GB
總聚集頻寬 每秒 3.6 TB 每秒 7.2 TB
網路頻寬 每秒 0.4 TB 每秒 0.8 TB

深入瞭解 NVIDIA Blackwell 架構