Superordenador de IA NVIDIA HGX

La plataforma de computación de IA líder en el mundo.

Diseñado específicamente para IA y HPC

La IA, las simulaciones complejas y los conjuntos de datos masivos requieren múltiples GPU con interconexiones extremadamente rápidas y una pila de software totalmente acelerada. La plataforma de supercomputación de IA NVIDIA HGX™ reúne toda la potencia de las GPU NVIDIA, NVLink®, las redes NVIDIA y pilas de software de IA y computación de alto rendimiento (HPC) totalmente optimizadas para proporcionar el mayor rendimiento de las aplicaciones y acelerar el tiempo de obtención de información.

Plataforma de computación acelerada de extremo a extremo sin igual

NVIDIA HGX B200 y HGX B100 integran GPU NVIDIA Blackwell Tensor Cores con interconexiones de alta velocidad para impulsar el centro de datos hacia una nueva era de computación acelerada e IA generativa. Los sistemas HGX basados en Blackwell, principal plataforma de escalado acelerado con hasta 15 veces más rendimiento de inferencia que la generación anterior, están diseñados para las cargas de trabajo de IA generativa, análisis de datos y HPC más exigentes.

NVIDIA HGX incluye opciones de red avanzadas, a velocidades de hasta 400 gigabits por segundo (Gb/s), que utilizan NVIDIA Quantum-2 InfiniBand y Spectrum™-X Ethernet para obtener el máximo rendimiento de la IA. HGX también incluye unidades de procesamiento de datos (DPU) NVIDIA® BlueField®-3 para permitir la creación de redes en la nube, el almacenamiento combinable, la seguridad de confianza cero y la elasticidad de cálculo de la GPU en nubes de IA a hiperescala.

Inferencia de deep learning: rendimiento y versatilidad

Rendimiento previsto sujeto a cambios. Latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, latencia de primer token (FTL) = 5 s, longitud de secuencia de entrada = 32 768, longitud de secuencia de salida = 1028, 8 GPU NVIDIA HGX™ H100 de ocho vías refrigeradas por aire frente a 1 GPU HGX B200 de ocho vías refrigeradas por aire, por comparación de rendimiento de GPU​.

Inferencia en tiempo real para la próxima generación de modelos lingüísticos de gran tamaño

HGX B200 logra un rendimiento de inferencia hasta 15 veces mayor que la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. La segunda generación del motor transformador utiliza tecnología de núcleos Tensor de Blackwell personalizada combinada con las innovaciones de TensorRT™-LLM y Nemo™ Framework para acelerar la inferencia de modelos lingüísticos de gran tamaño (LLM) y modelos de mezcla de expertos (MoE). 

Entrenamiento de deep learning: rendimiento y escalabilidad

Rendimiento previsto sujeto a cambios. Escala de 32 768 GPU, clúster HGX H100 de ocho vías y refrigeración por aire de 4096x: Red de 400 G InfiniBand (IB), clúster HGX B200 de ocho vías y refrigeración por aire de 4096x: red IB de 400 G.

Rendimiento del entrenamiento de siguiente nivel

El motor transformador de segunda generación, que incorpora coma flotante de 8 bits (FP8) y nuevas precisiones, permite un entrenamiento 3 veces más rápido para modelos lingüísticos de gran tamaño como GPT-MoE-1.8T. Este avance se complementa con NVLink de quinta generación con 1,8 TB/s de interconexión GPU-GPU, redes InfiniBand y el software NVIDIA Magnum IO™ . Juntos, garantizan una escalabilidad eficiente para empresas y clústeres de computación de GPU de gran tamaño.

Acelerar HGX con NVIDIA Networking

El centro de datos es la nueva unidad de computación y las redes desempeñan un papel integral en el escalado del rendimiento de las aplicaciones. Junto con NVIDIA Quantum InfiniBand, HGX ofrece un rendimiento y una eficiencia de clase mundial, que garantiza la utilización completa de los recursos informáticos.

Para los centros de datos en la nube de IA que implementan Ethernet, HGX se utiliza mejor con la plataforma de red NVIDIA Spectrum-X, que impulsa el mayor rendimiento de IA con Ethernet. Con conmutadores NVIDIA Spectrum™-X y DPU BlueField-3, ofrece resultados consistentes y predecibles para miles de trabajos de IA simultáneos a todas las escalas a través de la utilización óptima de recursos y el aislamiento del rendimiento. Spectrum-X también permite la seguridad avanzada de varios inquilinos en la nube y de confianza cero. Como diseño de referencia, NVIDIA ha diseñado Israel-1, un superordenador de IA generativa a hiperescala creado con servidores Dell PowerEdge XE9680 basado en la plataforma de ocho GPU NVIDIA HGX, DPU BlueField-3y los conmutadores Spectrum-X.

Conexión de HGX con NVIDIA Networking

  Plataforma NVIDIA Quantum-2 InfiniBand:

Conmutador Quantum-2, adaptador ConnectX-7, DPU BlueField-3

Plataforma NVIDIA Spectrum-X:

Conmutador Spectrum-4, BlueField-3 SuperNIC

Plataforma Ethernet NVIDIA Spectrum:

Conmutador Spectrum, adaptador ConnectX, DPU BlueField

Entrenamiento de Deep Learning La mejor Mejor Bien
Simulación científica La mejor Mejor Bien
Análisis de datos La mejor Mejor Bien
Inferencia de Deep Learning La mejor Mejor Bien

Especificaciones de NVIDIA HGX

NVIDIA HGX está disponible en placas base individuales con cuatro u ocho GPU H200 or H100 u ocho GPU Blackwell. Estas poderosas combinaciones de hardware y software sientan las bases para un rendimiento de supercomputación de IA sin precedentes.

  HGX B200 HGX B100
GPUs HGX B200 8-GPU HGX B100 8-GPU
Formato 8x NVIDIA B200 SXM 8x NVIDIA B100 SXM
Tensor Core de FP4 144 PFLOPS 112 PFLOPS
Tensor Core de FP8/FP6 72 PFLOPS 56 PFLOPS
Tensor Core de INT8 72 POPS 56 POPS
Tensor Core de FP16/BF16 36 PFLOPS 28 PFLOPS
Tensor Core de TF32 18 PFLOPS 14 PFLOPS
FP32 640 TFLOPS 480 TFLOPS
FP64 320 TFLOPS 240 TFLOPS
Tensor Core de FP64 320 TFLOPS 240 TFLOPS
Memoria Up to 1.5TB Up to 1.5TB
NVIDIA NVLink 5ª generación 5ª generación
NVIDIA NVSwitch™ Cuarta generación Cuarta generación
Ancho de banda de GPU a GPU de NVSwitch 1,8 TB/s 1,8 TB/s
Ancho de banda agregado total 14,4 TB/s 14,4 TB/s
  * HGX H200
  4-GPU 8-GPU
GPUs HGX H200 4-GPU HGX H200 8-GPU
Formato 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
Tensor Core de FP8/FP6 16 PFLOPS 32 PFLOPS
Tensor Core de INT8 16 POPS 32 POPS
Tensor Core de FP16/BFLOAT16 8 PFLOPS 16 PFLOPS
Tensor Core de TF32 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
Tensor Core de FP64 270 TFLOPS 540 TFLOPS
Memoria Hasta 564 GB Hasta 1,1 TB
NVLink Cuarta generación Cuarta generación
NVSwitch N/D Tercera generación
Ancho de banda de GPU a GPU de NVSwitch N/D 900GB/s
Ancho de banda agregado total 3,6 TB/s 7,2 TB/s
  * HGX H100
  4-GPU 8-GPU
GPUs HGX H100 4-GPU HGX H100 8-GPU
Formato 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
FP8/FP6 Tensor Core 16 PFLOPS 32 PFLOPS
INT8 Tensor Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor Core 8 PFLOPS 16 PFLOPS
TF32 Tensor Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
Memory Hasta 320 GB Hasta 640 GB
NVLink Cuarta generación Cuarta generación
NVSwitch N/D Tercera generación
NVLink Switch N/D N/D
Ancho de banda de GPU a GPU de NVSwitch N/D 900 GB/s
Ancho de banda agregado total 3,6 TB/s 7,2 TB/s

Obtenga más información sobre la GPU NVIDIA H200 Tensor Core.