NVIDIA HGX 플랫폼

모든 데이터센터에서 고급 AI 및 HPC 가속화.

개요
추론
네트워킹
사양

개요

개요
추론
네트워킹
사양

AI 및 고성능 컴퓨팅(HPC)을 위한 특수 설계

AI, 복잡한 시뮬레이션 및 대규모 데이터 세트는 매우 빠른 상호 연결과 완전히 가속된 소프트웨어 스택을 갖춘 여러 GPU가 필요합니다. NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 최고 성능을 통합하여 가장 높은 애플리케이션 성능을 제공하고 모든 데이터센터에서 인사이트를 얻는 데 가장 적은 시간을 할애합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX B300 NVL16은 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 진입하게 합니다. 이전 세대보다 최대 11배 더 높은 추론 성능을 제공하는 최고의 가속 확장 플랫폼인 Blackwell 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석 및 HPC 워크로드를 위해 설계되었습니다.

NVIDIA HGX는 최고 AI 성능을 위해 NVIDIA Quantum-X800 InfiniBand 및 Spectrum™-X Ethernet을 사용하여 초당 800기가비트(Gb/s)의 속도로 고급 네트워킹 옵션을 포함합니다. HGX는 또한 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 컴포저블 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원하는 NVIDIA BlueField®-3 데이터 처리 장치(DPU)를 포함하고 있습니다.

AI 추론: 성능 및 다양성

예상 성능은 변경될 수 있습니다. 토큰간 지연 시간(TTL) = 실시간 20ms, 첫 번째 토큰 지연 시간(FTL) = 5초, 입력 시퀀스 길이 = 32,768, 출력 시퀀스 길이 = 1,028, GPU 성능 비교당 8웨이 HGX H100 GPU 공랭식 8개 대 HGX B300 NVL16 공랭식 1개, 분산된 추론을 사용한 처리.

실시간 거대 언어 모델 추론

HGX B300 NVL16은 Llama 3.1 405B와 같은 모델에서 이전 NVIDIA Hopper™ 세대보다 최대 11배 더 높은 추론 성능을 달성합니다. 2세대 트랜스포머 엔진은 TensorRT™-LLM 혁신과 결합된 맞춤형 Blackwell Tensor Core 기술을 사용하여 거대 언어 모델(LLM)에 대한 추론을 가속화합니다.

NVIDIA 네트워킹을 통한 HGX 가속화하기

데이터 센터는 컴퓨팅의 새로운 단위이며, 네트워킹은 이를 통해 애플리케이션 성능을 확장하는 데 필수적인 역할을 합니다. NVIDIA Quantum InfiniBand와 연계된 HGX는 세계 최고 수준의 성능과 효율성을 제공하여 컴퓨팅 리소스를 최대한 활용할 수 있습니다.

이더넷을 배포하는 AI 클라우드 데이터 센터의 경우, HGX는 이더넷을 통해 최고의 AI 성능을 제공하는 NVIDIA Spectrum-X™ 네트워킹 플랫폼과 함께 가장 잘 사용됩니다. 이 제품은 최적의 리소스 활용과 성능 격리를 위해 Spectrum-X 스위치와 NVIDIA SuperNIC™을 갖추고 있으며, 모든 규모에서 수천 개의 AI 작업을 동시에 수행할 때 일관되고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. 참조 설계로서, NVIDIA는 NVIDIA HGX 8-GPU 플랫폼, BlueField-3 SuperNICs 및 Spectrum-4 스위치를 기반으로 Dell PowerEdge XE9680 서버를 사용한 하이퍼스케일 생성형 AI 슈퍼컴퓨터 Israel-1을 설계했습니다.

NVIDIA HGX 스펙

NVIDIA HGX는 4개 또는 8개의 Hopper GPU, 8개의 NVIDIA Blackwell GPU 또는 16개의 Blackwell Ultra GPU를 갖춘 단일 베이스보드로 사용할 수 있습니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
폼 팩터	NVIDIA Blackwell Ultra GPU 16개	8x NVIDIA Blackwell GPU
FP4 Tensor 코어**	144 FPLOPS \| 105 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 텐서 코어*	72 FPLOPS	72 플롭스
INT8 Tensor 코어*	2 POPS	72 POPS
FP16/BF16 텐서 코어*	36 플롭스	36 플롭스
TF32 Tensor 코어*	18 플롭스	18 플롭스
FP32	600 테라플롭스	600 테라플롭스
FP64/FP64 Tensor 코어	10 테라플롭스	296 테라플롭스
총 메모리	최대 2.3TB	1.4TB
NVLink	5 세대	5 세대
NVIDIA NVSwitch™	NVLink 5 Switch	NVLink 5 Switch
NVSwitch GPU 간 대역폭	1.8TB/s	1.8TB/s
총 NVLink 대역폭	14.4TB/s	14.4TB/s

* 희소성 포함

** 희소성 있음 | 희소성 없음

NVIDIA Blackwell 데이터시트 읽기

	HGX H200
	4GPU	8GPU
폼 팩터	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
FP8 텐서 코어*	16 플롭스	32 플롭스
INT8 텐서 코어*	16 POPS	32 POPS
FP16/BF16 텐서 코어*	8 플롭스	16 플롭스
TF32 텐서 코어*	4 플롭스	8 플롭스
FP32	270 테라플롭스	540 테라플롭스
FP64	140 테라플롭스	270 테라플롭스
FP64 Tensor 코어	270 테라플롭스	540 테라플롭스
총 메모리	564GB HBM3	1.1TB HBM3
GPU 통합 대역폭	19GB/s	38GB/s
NVLink	4세대	4세대
NVSwitch	해당 없음	NVLink 4 Switch
NVSwitch GPU 간 대역폭	해당 없음	900GB/s
전체 통합 대역폭	3.6TB/s	7.2TB/s

	HGX H100
	4GPU	8GPU
폼 팩터	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
FP8 텐서 코어*	16 플롭스	32 플롭스
INT8 텐서 코어*	16 POPS	32 POPS
FP16/BF16 텐서 코어*	8 플롭스	16 플롭스
TF32 텐서 코어*	4 플롭스	8 플롭스
FP32	270 테라플롭스	540 테라플롭스
FP64	140 테라플롭스	270 테라플롭스
FP64 Tensor 코어	270 테라플롭스	540 테라플롭스
총 메모리	320GB HBM3	640GB HBM3
GPU 통합 대역폭	13GB/s	27GB/s
NVLink	4세대	4세대
NVSwitch	해당 없음	NVLink 4 Switch
NVSwitch GPU 간 대역폭	해당 없음	900GB/s
전체 통합 대역폭	3.6TB/s	7.2TB/s

* 희소성 포함

NVIDIA HGX H100 및 HGX H200 데이터 시트 읽기

NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.

자세히 알아보기