모든 데이터센터에서 고급 AI 및 HPC 가속화.
AI, 복잡한 시뮬레이션 및 대규모 데이터 세트는 매우 빠른 상호 연결과 완전히 가속된 소프트웨어 스택을 갖춘 여러 GPU가 필요합니다. NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 최고 성능을 통합하여 가장 높은 애플리케이션 성능을 제공하고 모든 데이터센터에서 인사이트를 얻는 데 가장 적은 시간을 할애합니다.
NVIDIA HGX B300 NVL16은 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 진입하게 합니다. 이전 세대보다 최대 11배 더 높은 추론 성능을 제공하는 최고의 가속 확장 플랫폼인 Blackwell 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석 및 HPC 워크로드를 위해 설계되었습니다.
NVIDIA HGX는 최고 AI 성능을 위해 NVIDIA Quantum-X800 InfiniBand 및 Spectrum™-X Ethernet을 사용하여 초당 800기가비트(Gb/s)의 속도로 고급 네트워킹 옵션을 포함합니다. HGX는 또한 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 컴포저블 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원하는 NVIDIA BlueField®-3 데이터 처리 장치(DPU)를 포함하고 있습니다.
예상 성능은 변경될 수 있습니다. 토큰간 지연 시간(TTL) = 실시간 20ms, 첫 번째 토큰 지연 시간(FTL) = 5초, 입력 시퀀스 길이 = 32,768, 출력 시퀀스 길이 = 1,028, GPU 성능 비교당 8웨이 HGX H100 GPU 공랭식 8개 대 HGX B300 NVL16 공랭식 1개, 분산된 추론을 사용한 처리.
HGX B300 NVL16은 Llama 3.1 405B와 같은 모델에서 이전 NVIDIA Hopper™ 세대보다 최대 11배 더 높은 추론 성능을 달성합니다. 2세대 트랜스포머 엔진은 TensorRT™-LLM 혁신과 결합된 맞춤형 Blackwell Tensor Core 기술을 사용하여 거대 언어 모델(LLM)에 대한 추론을 가속화합니다.
데이터 센터는 컴퓨팅의 새로운 단위이며, 네트워킹은 이를 통해 애플리케이션 성능을 확장하는 데 필수적인 역할을 합니다. NVIDIA Quantum InfiniBand와 연계된 HGX는 세계 최고 수준의 성능과 효율성을 제공하여 컴퓨팅 리소스를 최대한 활용할 수 있습니다.
이더넷을 배포하는 AI 클라우드 데이터 센터의 경우, HGX는 이더넷을 통해 최고의 AI 성능을 제공하는 NVIDIA Spectrum-X™ 네트워킹 플랫폼과 함께 가장 잘 사용됩니다. 이 제품은 최적의 리소스 활용과 성능 격리를 위해 Spectrum-X 스위치와 NVIDIA SuperNIC™을 갖추고 있으며, 모든 규모에서 수천 개의 AI 작업을 동시에 수행할 때 일관되고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. 참조 설계로서, NVIDIA는 NVIDIA HGX 8-GPU 플랫폼, BlueField-3 SuperNICs 및 Spectrum-4 스위치를 기반으로 Dell PowerEdge XE9680 서버를 사용한 하이퍼스케일 생성형 AI 슈퍼컴퓨터 Israel-1을 설계했습니다.
NVIDIA HGX는 4개 또는 8개의 Hopper GPU, 8개의 NVIDIA Blackwell GPU 또는 16개의 Blackwell Ultra GPU를 갖춘 단일 베이스보드로 사용할 수 있습니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.
HGX B300 NVL16 | HGX B200 | |
---|---|---|
폼 팩터 | NVIDIA Blackwell Ultra GPU 16개 | 8x NVIDIA Blackwell GPU |
FP4 Tensor 코어** | 144 FPLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
FP8/FP6 텐서 코어* | 72 FPLOPS | 72 플롭스 |
INT8 Tensor 코어* | 2 POPS | 72 POPS |
FP16/BF16 텐서 코어* | 36 플롭스 | 36 플롭스 |
TF32 Tensor 코어* | 18 플롭스 | 18 플롭스 |
FP32 | 600 테라플롭스 | 600 테라플롭스 |
FP64/FP64 Tensor 코어 | 10 테라플롭스 | 296 테라플롭스 |
총 메모리 | 최대 2.3TB | 1.4TB |
NVLink | 5 세대 | 5 세대 |
NVIDIA NVSwitch™ | NVLink 5 Switch | NVLink 5 Switch |
NVSwitch GPU 간 대역폭 | 1.8TB/s | 1.8TB/s |
총 NVLink 대역폭 | 14.4TB/s | 14.4TB/s |
* 희소성 포함
** 희소성 있음 | 희소성 없음
NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.