Supercomputador de IA NVIDIA HGX

A principal plataforma de computação de IA do mundo.

Confira o Catálogo de Sistemas Qualificados

Introdução
Plataforma
Inferência
Treinamento
Networking
Especificações

Introdução

Introdução
Plataforma
Inferência
Treinamento
Networking
Especificações

Criado Especificamente para IA e Computação de Alto Desempenho

IA, simulações complexas e conjuntos de dados em massa exigem várias GPUs com interconexões extremamente rápidas e um stack de software totalmente acelerado. A plataforma de supercomputação de IA NVIDIA HGX™ reúne todo o poder das GPUs NVIDIA, do NVIDIA NVLink™, das redes NVIDIA e dos stacks de software de IA e computação de alto desempenho (HPC) totalmente otimizados para fornecer o mais alto desempenho em aplicações e acelerar o tempo de obtenção de informações.

Plataforma Inigualável de Computação Acelerada de Ponta a Ponta

A NVIDIA HGX B200 e a HGX B100 integram as GPUs NVIDIA Blackwell Tensor Core com interconexões de alta velocidade para impulsionar o data center para uma nova era de computação acelerada e IA generativa. Por ser uma plataforma de escalabilidade acelerada líder com até 15 vezes mais desempenho de inferência do que a geração anterior, os sistemas HGX baseados em Blackwell são projetados para as cargas de trabalho de IA generativa, análise de dados e HPC mais exigentes.

A NVIDIA HGX inclui opções avançadas de rede, a velocidades de até 400 gigabits por segundo (Gb/s), usando o NVIDIA Quantum-2 InfiniBand e o Spectrum™-X Ethernet para o mais alto desempenho de IA. A HGX também inclui unidades de processamento de dados (DPUs) NVIDIA® BlueField®-3 para permitir redes em nuvem, armazenamento agregável, segurança zero-trust e elasticidade de computação de GPU em nuvens de IA de hiperescala.

Inferência de Deep Learning: Desempenho e Versatilidade

Inferência de Deep Learning em Tempo Real

Desempenho projetado sujeito a alterações. Latência de token para token (TTL) = 50 milissegundos (ms) em tempo real, primeira latência de token (FTL) = 5s, comprimento da sequência de entrada = 32.768, comprimento da sequência de saída = 1.028, comparação de desempenho por GPU entre 8 GPUs NVIDIA HGX™ H100 de oito vias com resfriamento a ar versus 1 HGX B200 de oito vias com resfriamento a ar.

Inferência em Tempo Real para a Próxima Geração de Grandes Modelos de Linguagem

A HGX B200 alcança um desempenho de inferência até 15 vezes maior em relação à geração anterior do NVIDIA Hopper™ para modelos em grande escala, como o GPT-MoE-1.8T. O Transformer Engine de segunda geração usa a tecnologia personalizada Blackwell Tensor Core combinada com as inovações do TensorRT™-LLM e do Framework Nemo™ para acelerar a inferência para grandes modelos de linguagem (LLMs) e modelos de mistura de especialistas (MoE).

Treinamento de Deep Learning: Desempenho e Escalabilidade

Treinamento até 5 Vezes Mais Rápido em Escala

Desempenho projetado sujeito a alterações. Escala de GPU de 32.768, cluster de 4.096 HGX H100 de oito vias com resfriamento a ar: rede 400G InfiniBand (IB), cluster de 4.096 HGX B200 de 8 vias com resfriamento a ar: rede 400G IB.

Desempenho de Treinamento de Nível Avançado

O Transformer Engine de segunda geração, com ponto flutuante de 8 bits (FP8) e novas precisões, permite um treinamento notável 3 vezes mais rápido para grandes modelos de linguagem como o GPT-MoE-1.8T. Esse avanço é complementado pelo NVLink de quinta geração com 1,8TB/s de interconexão de GPU para GPU, rede InfiniBand e software NVIDIA Magnum IO™. Juntos, eles garantem escalabilidade eficiente para empresas e extensos clusters de computação de GPU.

Acelerando a HGX com Redes NVIDIA

O data center é a nova unidade de computação, e as redes desempenham um papel fundamental na escalabilidade do desempenho de aplicações em todo ele. Juntamente com o NVIDIA Quantum InfiniBand, a HGX oferece desempenho e eficiência de classe mundial, o que garante a total utilização dos recursos de computação.

Para data centers de IA na nuvem que implantam Ethernet, a HGX é mais bem utilizada com a plataforma de rede NVIDIA Spectrum-X, que possibilita o mais alto desempenho de IA via Ethernet. Ela apresenta switches Spectrum-X e DPUs BlueField-3 para utilização ideal de recursos e isolamento de desempenho, oferecendo resultados consistentes e previsíveis para milhares de trabalhos de IA simultâneos em qualquer escala. O Spectrum-X permite multilocação avançada de nuvem e segurança zero-trust. Como design de referência, a NVIDIA projetou o Israel-1, um supercomputador de IA generativa de hiperescala construído com servidores Dell PowerEdge XE9680 baseados na plataforma NVIDIA HGX de 8 GPUs, DPUs BlueField-3 e switches Spectrum-4.

Conectando a HGX com Redes NVIDIA

	Plataforma NVIDIA Quantum-2 InfiniBand: Quantum-2 Switch, ConnectX-7 Adapter, BlueField-3 DPU	Plataforma NVIDIA Spectrum-X: Spectrum-4 Switch, BlueField-3 SuperNIC	Plataforma Ethernet NVIDIA Spectrum: Spectrum Switch, ConnectX Adapter, BlueField DPU
Treinamento de Deep Learning	Excelente	Ótimo	Bom
Simulação Científica	Excelente	Ótimo	Bom
Análise de Dados	Excelente	Ótimo	Bom
Inferência de Deep Learning	Excelente	Ótimo	Bom

Especificações da NVIDIA HGX

A NVIDIA HGX está disponível em placas base únicas com quatro ou oito GPUs H200 ou H100 ou oito GPUs Blackwell. Essas potentes combinações de hardware e software estabelecem as bases para um desempenho de supercomputação de IA sem precedentes.

Blackwell
Hopper

	HGX B200
Formato	8 GPUs NVIDIA Blackwell
FP4 Tensor Core*	144 PFLOPS
FP8/FP6 Tensor Core*	72 PFLOPS
INT8 Tensor Core*	72 POPS
FP16/BF16 Tensor Core*	36 PFLOPS
TF32 Tensor Core*	18 PFLOPS
FP32	600 TFLOPS
FP64	296 TFLOPS
FP64 Tensor Core	296 TFLOPS
Memória	Até 1,4TB
NVLink	Quinta geração
NVIDIA NVSwitch™	Quarta geração
Largura de Banda de GPU para GPU NVSwitch	1,8TB/s
Largura de Banda Agregada Total	14,4TB/s

*Com dispersão

Leia a Ficha Técnica da NVIDIA Blackwell

	HGX H200
	4 GPUs	8 GPUs
Formato	4 NVIDIA H200 SXM	8 NVIDIA H200 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Memória	HBM3 de 564GB	HBM3 de 1,1TB
Largura de Banda Agregada de GPU	19GB/s	38GB/s
NVLink	Quarta geração	Quarta geração
NVSwitch	N/A	Terceira geração
Largura de Banda de GPU para GPU NVSwitch	N/A	900GB/s
Largura de Banda Agregada Total	3,6TB/s	7,2TB/s

	HGX H100
	4 GPUs	8 GPUs
Formato	4 NVIDIA H100 SXM	8 NVIDIA H100 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Memória	HBM3 de 320GB	HBM3 de 640GB
Largura de Banda Agregada de GPU	13GB/s	27GB/s
NVLink	Quarta geração	Quarta geração
NVSwitch	N/A	Terceira geração
Largura de Banda de GPU para GPU NVSwitch	N/A	900GB/s
Largura de Banda Agregada Total	3,6TB/s	7,2TB/s

*Com dispersão

Leia a Ficha Técnica da NVIDIA HGX H100 e HGX H200

Saiba Mais Sobre a GPU NVIDIA H200 Tensor Core.

Saiba Mais