Plataforma NVIDIA HGX

Acelerando a IA Avançada em Todos os Data Centers.

Visão Geral
Inferência
Treinamento
Redes
Especificações

Visão Geral

Visão Geral
Inferência
Treinamento
Redes
Especificações

Criada Especificamente para IA e Computação de Alto Desempenho

IA, simulações complexas e conjuntos de dados de grande escala exigem várias GPUs com interconexões extremamente rápidas e um stack de software totalmente acelerado. A plataforma NVIDIA HGX™ reúne todo o poder das GPUs NVIDIA, do NVIDIA NVLink™, das redes NVIDIA e dos stacks de software de IA e de computação de alto desempenho (HPC) totalmente otimizados para garantir o máximo desempenho das aplicações e acelerar a obtenção de insights em todos os data centers.

Plataforma de Computação Acelerada de Ponta a Ponta Inigualável

A NVIDIA HGX B300 NVL16 integra as GPUs NVIDIA Blackwell Ultra com interconexões de alta velocidade para impulsionar o data center rumo a uma nova era de computação acelerada e IA generativa. Por ser uma plataforma de escalabilidade acelerada líder com até 11 vezes mais desempenho de inferência do que a geração anterior, os sistemas HGX baseados em Blackwell foram projetados para as cargas de trabalho de IA generativa, análise de dados e HPC mais exigentes.

A NVIDIA HGX inclui opções avançadas de redes, a velocidades de até 800 gigabits por segundo (Gb/s), usando o NVIDIA Quantum-X800 InfiniBand e a Ethernet Spectrum™-X para o mais alto desempenho de IA. A HGX também inclui unidades de processamento de dados (DPUs) NVIDIA BlueField®-3 para permitir redes em nuvem, armazenamento agregável, segurança de confiança zero e elasticidade de computação de GPU em nuvens de IA de hiperescala.

Inferência de Lógica de IA: Desempenho e Versatilidade

Inferência de Deep Learning em Tempo Real

Desempenho projetado sujeito a alterações. Latência token a token (TTL) = 20 ms em tempo real, latência do primeiro token (FTL) = 5 s, comprimento da sequência de entrada = 32.768, comprimento da sequência de saída = 1.028, 8 GPUs HGX H100 de oito vias com resfriamento a ar vs. 1 HGX B300 NVL16 com resfriamento a ar, por comparação de desempenho de GPU; atendidos por meio de inferência desagregada.

Inferência de Grandes Modelos de Linguagem em Tempo Real

A HGX B300 NVL16 alcança um desempenho de inferência até 11 vezes maior em relação à geração anterior, NVIDIA Hopper™, para modelos como o Llama 3.1 405B. O Transformer Engine de segunda geração usa tecnologia personalizada Blackwell Tensor Core combinada com inovações do TensorRT™-LLM para acelerar a inferência para grandes modelos de linguagem (LLMs).

Treinamento de IA: Desempenho e Escalabilidade

Desempenho projetado sujeito a alterações. 8 HGX H100 de oito vias vs. 1 HGX B300 NVL16, comparação de desempenho por GPU.

Desempenho de Treinamento de Nível Superior

O Transformer Engine de segunda geração, com ponto flutuante de 8 bits (FP8) e novas precisões, permite um treinamento notavelmente 4 vezes mais rápido para grandes modelos de linguagem como Llama 3.1 405B. Essa inovação é complementada pelo NVLink de quinta geração com 1,8TB/s de interconexão GPU-a-GPU, rede InfiniBand e software NVIDIA Magnum IO™. Juntos, eles garantem escalabilidade eficiente para empresas e amplos clusters de computação de GPU.

Aceleração da HGX com Redes NVIDIA

O data center é a nova unidade de computação, e as redes desempenham um papel fundamental na escalabilidade do desempenho de aplicações em todo ele. Juntamente com o NVIDIA Quantum InfiniBand, a HGX oferece desempenho e eficiência de classe mundial, o que garante a total utilização dos recursos de computação.

Para data centers de IA na nuvem que implantam Ethernet, a HGX é mais bem utilizada com a plataforma de rede NVIDIA Spectrum-X™, que possibilita o mais alto desempenho de IA via Ethernet. Ela inclui switches Spectrum-X e NVIDIA SuperNIC™ para utilização ideal de recursos e isolamento de desempenho, oferecendo resultados consistentes e previsíveis para milhares de trabalhos de IA simultâneos em qualquer escala. O Spectrum-X permite multilocação avançada de nuvem e segurança de confiança zero. Como design de referência, a NVIDIA projetou o Israel-1, um supercomputador de IA generativa de hiperescala construído com servidores Dell PowerEdge XE9680 baseados na plataforma NVIDIA HGX de 8 GPUs, SuperNICs BlueField-3 e switches Spectrum-4.

Especificações da NVIDIA HGX

A NVIDIA HGX está disponível em placas base únicas com quatro ou oito GPUs Hopper, oito GPUs NVIDIA Blackwell ou dezesseis GPUs Blackwell Ultra. Essas potentes combinações de hardware e software estabelecem as bases para um desempenho de supercomputação de IA sem precedentes.

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
Formato	16 GPUs NVIDIA Blackwell Ultra	8 GPUs NVIDIA Blackwell
Núcleo Tensor FP4**	144 FPLOPS \| 105 PFLOPS	144 PFLOPS \| 72 PFLOPS
Núcleo Tensor FP8/FP6*	72 FPLOPS	72 PFLOPS
Núcleo Tensor INT8*	2 POPS	72 POPS
Núcleo Tensor FP16/BF16*	36 PFLOPS	36 PFLOPS
Núcleo Tensor TF32*	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
Núcleo Tensor FP64/FP64	10 TFLOPS	296 TFLOPS
Memória total	Até 2,3TB	1,4TB
NVLink	Quinta geração	Quinta geração
NVIDIA NVSwitch™	Switch NVLink 5	Switch NVLink 5
Largura de Banda de GPU para GPU NVSwitch	1,8TB/s	1,8TB/s
Largura de Banda Total do NVLink	14,4TB/s	14,4TB/s

*Com dispersão

** Com dispersão | sem dispersão

Leia a Ficha Técnica da NVIDIA Blackwell

	HGX H200
	4 GPUs	8 GPUs
Formato	4 NVIDIA H200 SXM	8 NVIDIA H200 SXM
Núcleo Tensor FP8*	16 PFLOPS	32 PFLOPS
Núcleo Tensor INT8*	16 POPS	32 POPS
Núcleo Tensor FP16/BF16*	8 PFLOPS	16 PFLOPS
Núcleo Tensor TF32*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
Núcleo Tensor FP64	270 TFLOPS	540 TFLOPS
Memória Total	HBM3 de 564GB	HBM3 de 1,1TB
Largura de Banda Agregada de GPU	19GB/s	38GB/s
NVLink	Quarta geração	Quarta geração
NVSwitch	N/A	Switch NVLink 4
Largura de Banda de GPU para GPU NVSwitch	N/A	900GB/s
Largura de Banda Agregada Total	3,6TB/s	7,2TB/s

	HGX H100
	4 GPUs	8 GPUs
Formato	4 NVIDIA H100 SXM	8 NVIDIA H100 SXM
Núcleo Tensor FP8*	16 PFLOPS	32 PFLOPS
Núcleo Tensor INT8*	16 POPS	32 POPS
Núcleo Tensor FP16/BF16*	8 PFLOPS	16 PFLOPS
Núcleo Tensor TF32*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
Núcleo Tensor FP64	270 TFLOPS	540 TFLOPS
Memória Total	HBM3 de 320GB	HBM3 de 640GB
Largura de Banda Agregada de GPU	13GB/s	27GB/s
NVLink	Quarta geração	Quarta geração
NVSwitch	N/A	Switch NVLink 4
Largura de Banda de GPU para GPU NVSwitch	N/A	900GB/s
Largura de Banda Agregada Total	3,6TB/s	7,2TB/s

*Com dispersão

Leia a Ficha Técnica da NVIDIA HGX H100 e HGX H200

Saiba mais sobre a arquitetura NVIDIA Blackwell.

Saiba Mais