NVIDIA HGX 플랫폼

모든 데이터센터에서 고급 AI를 가속합니다.

개요

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 그리고 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 성능을 집약해 모든 데이터센터에서 최고 수준의 애플리케이션 성능과 가장 빠른 인사이트 도출을 제공합니다.

NVIDIA HGX B300은 8개의 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 HGX B200에 비해 1.5배 향상된 집적 FP4 Tensor 코어 FLOPS, 2배 향상된 어텐션 성능을 제공하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 이끌고 있습니다. 이전 세대보다 최대 30배 향상된 AI 팩토리 출력을 갖춘 최고의 가속 확장 플랫폼인 NVIDIA Blackwell Ultra 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석, HPC 워크로드를 위해 설계되었습니다.

NVIDIA Blackwell Ultra 데이터시트

NVIDIA Blackwell Ultra는 대규모 AI 추론을 위해 설계되어 더 스마트하고 빠르며 효율적인 AI를 제공합니다. NVIDIA HGX B300 및 GB300 NVL72의 사양과 성능에 대해 알아보세요.

NVIDIA HGX H100 및 HGX H200 데이터시트

NVIDIA의 HGX H100 및 H200 시스템의 기능과 특징을 살펴보세요. 이 데이터시트는 사양과 성능에 대한 자세한 정보를 제공합니다.

AI 및 고성능 컴퓨팅(HPC)을 위한 특수 설계

AI, 복잡한 시뮬레이션 및 대규모 데이터 세트는 매우 빠른 상호 연결과 완전히 가속된 소프트웨어 스택을 갖춘 여러 GPU가 필요합니다. NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 성능을 결합해 모든 데이터센터에 최고 수준의 애플리케이션 성능과 가장 빠른 인사이트 도출을 제공합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX B300은 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 이끌고 있습니다. 최대 11배 향상된 인퍼런스 성능을 제공하는 최상급 가속 스케일업 플랫폼으로서, Blackwell 기반 NVIDIA HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석, HPC 워크로드를 위해 설계되었습니다.

NVIDIA HGX는 최고 AI 성능을 위해 NVIDIA Quantum-X800 InfiniBand 및 Spectrum™-X Ethernet을 사용하여 초당 800기가비트(Gb/s)의 속도로 고급 네트워킹 옵션을 포함합니다. HGX는 또한 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 컴포저블 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원하는 NVIDIA BlueField®-3 데이터 처리 장치(DPU)를 포함하고 있습니다. 

AI 추론 성능 및 다용성

DeepSeek-R1 ISL = 32K, OSL = 8K, FP4 Dynamo 분리를 갖춘 HGX B300. H100(FP8 인플라이트 배칭 포함). 예상 성능은 변경될 수 있습니다.

HGX B300 AI 팩토리 출력으로 수익 증대

프론티어 곡선은 AI 팩토리 토큰의 수익 출력을 결정하는 주요 매개변수를 보여줍니다. 세로축은 1메가와트(MW) AI 팩토리의 초당 GPU 토큰(TPS) 처리량을 나타내며, 가로축은 사용자 상호작용과 응답성을 단일 사용자의 TPS로 정량화합니다. 처리량과 응답성의 최적의 교차점에서 HGX B300은 NVIDIA Hopper 아키텍처에 비해 AI 팩토리 출력 성능이 전반적으로 30배 향상되어 토큰 수익을 창출합니다.

거대 AI 모델을 위한 확장 가능한 학습

예상 성능은 변경될 수 있습니다. GPU당 성능, FP8, 16K BS, 16K 시퀀스 길이.

한 차원 높은 훈련 성능

HGX B300 플랫폼은 DeepSeek-R1과 같은 거대 언어 모델(LLM)의 학습 성능을 최대 2.6배 향상합니다. 2TB가 넘는 고속 메모리와 14.4TB/s에 달하는 NVLink 스위치 대역폭을 통해 대규모 모델 학습과 고처리량 GPU 간 통신을 지원합니다.

NVIDIA 네트워킹을 통한 HGX 가속화하기

데이터 센터는 컴퓨팅의 새로운 단위이며, 네트워킹은 이를 통해 애플리케이션 성능을 확장하는 데 필수적인 역할을 합니다. NVIDIA Quantum InfiniBand와 연계된 HGX는 세계 최고 수준의 성능과 효율성을 제공하여 컴퓨팅 리소스를 최대한 활용할 수 있습니다.

이더넷을 배포한 AI 클라우드 데이터센터의 경우 HGX는 NVIDIA Spectrum-X 네트워킹 플랫폼과 함께 가장 잘 활용되며, 이더넷을 통해 최고의 AI 성능을 지원합니다. Spectrum-X 스위치와 NVIDIA SuperNIC를 갖추고 있어 최적의 리소스 활용도와 성능 격리를 보장하며, 모든 규모에서 수천 개의 동시 AI 작업에 일관되고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. 레퍼런스 디자인으로서, NVIDIA는 NVIDIA HGX 8-GPU 플랫폼 기반의 Dell PowerEdge XE9680 서버, BlueField-3 SuperNIC, Spectrum-4 스위치를 활용해 구축한 하이퍼스케일 생성형 AI 슈퍼컴퓨터 Israel-1을 설계했습니다.

NVIDIA HGX 스펙

NVIDIA HGX는 4개 또는 8개의 Hopper SXM이나 8개의 NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM을 갖춘 단일 베이스보드로 사용할 수 있습니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.

HGX B300 HGX B200
폼 팩터 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor 코어1 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor 코어2 72 PFLOPS 72 PFLOPS
INT8 Tensor Core2 3 POPS 72 POPS
FP16/BF16 Tensor Core2 36 PFLOPS 36 PFLOPS
TF32 Tensor Core2 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
총 메모리 2.1 TB 1.4 TB
NVIDIA NVLink 5세대 5세대
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU 대역폭 1.8 TB/s 1.8 TB/s
총 NVLink 대역폭 14.4 TB/s 14.4 TB/s
네트워킹 대역폭 1.6TB/s 0.8 TB/s
어텐션 성능3 2배 1x
HGX H200
4-GPU 8-GPU
폼 팩터 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
FP8 Tensor Core* 16 PFLOPS 32 PFLOPS
INT8 Tensor Core* 16 POPS 32 POPS
FP16/BF16 Tensor Core* 8 PFLOPS 16 PFLOPS
TF32 Tensor Core* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
총 메모리 564 GB HBM3E 1.1 TB HBM3E
GPU 통합 대역폭 19 TB/s 38 TB/s
NVLink 4세대 4세대
NVSwitch 해당 없음 NVLink 4 Switch
NVSwitch GPU 간 대역폭 해당 없음 900GB/s
전체 통합 대역폭 3.6 TB/s 7.2 TB/s
네트워킹 대역폭 0.4 TB/s 0.8 TB/s
HGX H100
4-GPU 8-GPU
폼 팩터 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
FP8 Tensor Core* 16 PFLOPS 32 PFLOPS
INT8 Tensor Core* 16 POPS 32 POPS
FP16/BF16 Tensor Core* 8 PFLOPS 16 PFLOPS
TF32 Tensor Core* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
총 메모리 320 GB HBM3 640 GB HBM3
GPU 통합 대역폭 13 TB/s 27 TB/s
NVLink 4세대 4세대
NVSwitch 해당 없음 NVLink 4 Switch
NVSwitch GPU 간 대역폭 해당 없음 900GB/s
전체 통합 대역폭 3.6 TB/s 7.2 TB/s
네트워킹 대역폭 0.4 TB/s 0.8 TB/s

NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.