Acelerando a IA Avançada em Todos os Data Centers.
IA, simulações complexas e conjuntos de dados de grande escala exigem várias GPUs com interconexões extremamente rápidas e um stack de software totalmente acelerado. A plataforma NVIDIA HGX™ reúne todo o poder das GPUs NVIDIA, do NVIDIA NVLink™, das redes NVIDIA e dos stacks de software de IA e de computação de alto desempenho (HPC) totalmente otimizados para garantir o máximo desempenho das aplicações e acelerar a obtenção de insights em todos os data centers.
A NVIDIA HGX B300 NVL16 integra as GPUs NVIDIA Blackwell Ultra com interconexões de alta velocidade para impulsionar o data center rumo a uma nova era de computação acelerada e IA generativa. Por ser uma plataforma de escalabilidade acelerada líder com até 11 vezes mais desempenho de inferência do que a geração anterior, os sistemas HGX baseados em Blackwell foram projetados para as cargas de trabalho de IA generativa, análise de dados e HPC mais exigentes.
A NVIDIA HGX inclui opções avançadas de redes, a velocidades de até 800 gigabits por segundo (Gb/s), usando o NVIDIA Quantum-X800 InfiniBand e a Ethernet Spectrum™-X para o mais alto desempenho de IA. A HGX também inclui unidades de processamento de dados (DPUs) NVIDIA BlueField®-3 para permitir redes em nuvem, armazenamento agregável, segurança de confiança zero e elasticidade de computação de GPU em nuvens de IA de hiperescala.
Desempenho projetado sujeito a alterações. Latência token a token (TTL) = 20 ms em tempo real, latência do primeiro token (FTL) = 5 s, comprimento da sequência de entrada = 32.768, comprimento da sequência de saída = 1.028, 8 GPUs HGX H100 de oito vias com resfriamento a ar vs. 1 HGX B300 NVL16 com resfriamento a ar, por comparação de desempenho de GPU; atendidos por meio de inferência desagregada.
A HGX B300 NVL16 alcança um desempenho de inferência até 11 vezes maior em relação à geração anterior, NVIDIA Hopper™, para modelos como o Llama 3.1 405B. O Transformer Engine de segunda geração usa tecnologia personalizada Blackwell Tensor Core combinada com inovações do TensorRT™-LLM para acelerar a inferência para grandes modelos de linguagem (LLMs).
Desempenho projetado sujeito a alterações. 8 HGX H100 de oito vias vs. 1 HGX B300 NVL16, comparação de desempenho por GPU.
O Transformer Engine de segunda geração, com ponto flutuante de 8 bits (FP8) e novas precisões, permite um treinamento notavelmente 4 vezes mais rápido para grandes modelos de linguagem como Llama 3.1 405B. Essa inovação é complementada pelo NVLink de quinta geração com 1,8TB/s de interconexão GPU-a-GPU, rede InfiniBand e software NVIDIA Magnum IO™. Juntos, eles garantem escalabilidade eficiente para empresas e amplos clusters de computação de GPU.
O data center é a nova unidade de computação, e as redes desempenham um papel fundamental na escalabilidade do desempenho de aplicações em todo ele. Juntamente com o NVIDIA Quantum InfiniBand, a HGX oferece desempenho e eficiência de classe mundial, o que garante a total utilização dos recursos de computação.
Para data centers de IA na nuvem que implantam Ethernet, a HGX é mais bem utilizada com a plataforma de rede NVIDIA Spectrum-X™, que possibilita o mais alto desempenho de IA via Ethernet. Ela inclui switches Spectrum-X e NVIDIA SuperNIC™ para utilização ideal de recursos e isolamento de desempenho, oferecendo resultados consistentes e previsíveis para milhares de trabalhos de IA simultâneos em qualquer escala. O Spectrum-X permite multilocação avançada de nuvem e segurança de confiança zero. Como design de referência, a NVIDIA projetou o Israel-1, um supercomputador de IA generativa de hiperescala construído com servidores Dell PowerEdge XE9680 baseados na plataforma NVIDIA HGX de 8 GPUs, SuperNICs BlueField-3 e switches Spectrum-4.
A NVIDIA HGX está disponível em placas base únicas com quatro ou oito GPUs Hopper, oito GPUs NVIDIA Blackwell ou dezesseis GPUs Blackwell Ultra. Essas potentes combinações de hardware e software estabelecem as bases para um desempenho de supercomputação de IA sem precedentes.
HGX B300 NVL16 | HGX B200 | |
---|---|---|
Formato | 16 GPUs NVIDIA Blackwell Ultra | 8 GPUs NVIDIA Blackwell |
Núcleo Tensor FP4** | 144 FPLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
Núcleo Tensor FP8/FP6* | 72 FPLOPS | 72 PFLOPS |
Núcleo Tensor INT8* | 2 POPS | 72 POPS |
Núcleo Tensor FP16/BF16* | 36 PFLOPS | 36 PFLOPS |
Núcleo Tensor TF32* | 18 PFLOPS | 18 PFLOPS |
FP32 | 600 TFLOPS | 600 TFLOPS |
Núcleo Tensor FP64/FP64 | 10 TFLOPS | 296 TFLOPS |
Memória total | Até 2,3TB | 1,4TB |
NVLink | Quinta geração | Quinta geração |
NVIDIA NVSwitch™ | Switch NVLink 5 | Switch NVLink 5 |
Largura de Banda de GPU para GPU NVSwitch | 1,8TB/s | 1,8TB/s |
Largura de Banda Total do NVLink | 14,4TB/s | 14,4TB/s |
*Com dispersão
** Com dispersão | sem dispersão
Saiba mais sobre a arquitetura NVIDIA Blackwell.