Plataforma NVIDIA HGX

Acelerar la IA avanzada en todos los centros de datos.

Descripción
Inferencia
Entrenamiento
Redes
Especificaciones

Descripción

Descripción
Inferencia
Entrenamiento
Redes
Especificaciones

Diseñada específicamente para IA e informática de alto rendimiento

La IA, las simulaciones complejas y los conjuntos de datos masivos requieren varias GPU con interconexiones extremadamente rápidas y una pila de software totalmente acelerada. La plataforma NVIDIA HGX™ reúne toda la potencia de las GPU NVIDIA, NVIDIA NVLink™, las redes NVIDIA y pilas de software de IA totalmente optimizadas e informática de alto rendimiento (HPC) para proporcionar el más alto rendimiento de aplicaciones e impulsar el tiempo más rápido de información para cada centro de datos.

Plataforma de computación acelerada de extremo a extremo sin igual

NVIDIA HGX B300 NVL16 integra GPU NVIDIA Blackwell Ultra con interconexiones de alta velocidad para impulsar el centro de datos a una nueva era de computación acelerada e IA generativa. Como plataforma de escalado acelerado de primer nivel con hasta 11 veces más rendimiento de inferencia que la generación anterior, los sistemas HGX basados en Blackwell están diseñados para las cargas de trabajo de IA generativa, análisis de datos y HPC más exigentes.

NVIDIA HGX incluye opciones de red avanzadas a velocidades de hasta 800 gigabits por segundo (Gb/s), que utilizan NVIDIA Quantum-X800 InfiniBand y Ethernet Spectrum™-X para lograr el más alto rendimiento de IA. HGX también incluye unidades de procesamiento de datos (DPU) NVIDIA BlueField®-3 para permitir las redes en la nube, el almacenamiento componible, la seguridad de confianza cero y la elasticidad de computación de GPU en nubes de IA a hiperescala.

Inferencia de razonamiento de IA: rendimiento y versatilidad

Inferencia de deep learning en tiempo real

El rendimiento proyectado está sujeto a cambios. Latencia de token a token (TTL) = 20 ms en tiempo real, primera latencia de token (FTL) = 5 s, longitud de secuencia de entrada = 32 768, longitud de secuencia de salida = 1 028, 8 GPU HGX H100 de ocho direcciones refrigeradas por aire frente a 1 HGX B300 NVL16 refrigerada por aire, por comparación de rendimiento de GPU; servida con inferencia desagregada.

Inferencia de modelos lingüísticos de gran tamaño en tiempo real

HGX B300 NVL16 logra un rendimiento de inferencia hasta 11 veces mayor en comparación con la generación anterior de NVIDIA Hopper™ para modelos como Llama 3.1 405B. La segunda generación del motor Transformer utiliza la tecnología personalizada Blackwell Tensor Core combinada con las innovaciones TensorRT™-LLM para acelerar la inferencia para modelos lingüísticos de gran tamaño (LLM).

Entrenamiento de IA: rendimiento y escalabilidad

El rendimiento proyectado está sujeto a cambios. 8 HGX H100 de ocho vías frente a 1 HGX B300 NVL16, comparación de rendimiento por GPU.

Rendimiento de entrenamiento de siguiente nivel

El motor transformador de segunda generación, con coma flotante de 8 bits (FP8) y nuevas precisiones, permite un entrenamiento 4 veces más rápido para modelos lingüísticos de gran tamaño como Llama 3.1 405B. Este avance se complementa con NVLink de quinta generación con 1,8 TB/s de interconexión de GPU a GPU, redes InfiniBand y software NVIDIA Magnum IO™. Juntos, garantizan una escalabilidad eficiente para empresas y amplios clústeres de computación de GPU.

Acelerar HGX con redes NVIDIA

El centro de datos es la nueva unidad de computación, y las redes desempeñan un papel integral en el escalado del rendimiento de las aplicaciones en él. Junto con NVIDIA Quantum InfiniBand, HGX ofrece un rendimiento y eficiencia de primer nivel, lo que garantiza la utilización completa de los recursos de computación.

Para los centros de datos de IA en la nube que implementan Ethernet, HGX se utiliza mejor con la plataforma de red NVIDIA Spectrum-X™, que impulsa el más alto rendimiento de IA a través de Ethernet. Cuenta con conmutadores Spectrum-X y NVIDIA SuperNIC™ para una utilización óptima de recursos y un aislamiento del rendimiento, lo que ofrece resultados consistentes y predecibles para miles de trabajos de IA simultáneos en cada escala. Spectrum-X permite una seguridad multiinquilino avanzada en la nube y de confianza cero. Como diseño de referencia, NVIDIA ha diseñado Israel-1, un superordenador de IA generativa a hiperescala desarrollado con servidores Dell PowerEdge XE9680 basados en la plataforma de 8 GPU NVIDIA HGX, SuperNIC BlueField-3 y conmutadores Spectrum-4.

Especificaciones de NVIDIA HGX

NVIDIA HGX está disponible en una sola placa base con cuatro u ocho GPU Hopper, ocho GPU NVIDIA Blackwell o dieciséis GPU Blackwell Ultra. Estas potentes combinaciones de hardware y software sientan las bases para un rendimiento de supercomputación de IA sin precedentes.

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
Factor de forma	16 GPU NVIDIA Blackwell Ultra	8 GPU NVIDIA Blackwell
Núcleo Tensor FP4**	144 PETAFLOPS \| 105 PETAFLOPS	144 PETAFLOPS \| 72 PETAFLOPS
Núcleo Tensor FP8/FP6*	72 PETAFLOPS	72 PETAFLOPS
Núcleo Tensor INT8*	2 POPS	72 POPS
Núcleo Tensor FP16/BF16*	36 PETAFLOPS	36 PETAFLOPS
Núcleo Tensor TF32*	18 PETAFLOPS	18 PETAFLOPS
FP32	600 TERAFLOPS	600 TERAFLOPS
Núcleo Tensor FP64/FP64	10 TERAFLOPS	296 TERAFLOPS
Memoria total	Hasta 2,3 TB	1,4 TB
NVLink	Quinta generación	Quinta generación
NVIDIA NVSwitch™	Conmutador NVLink 5	Conmutador NVLink 5
Ancho de banda de GPU a GPU de NVSwitch	1,8 TB/s	1,8 TB/s
Ancho de banda NVLink total	14,4 TB/s	14,4 TB/s
Networking Bandwidth	1,6 TB/s	0,8 TB/s
Attention Performance	2X	1X

* Con dispersión

**Con dispersión | Sin dispersión

Leer la hoja de datos de NVIDIA Blackwell

	HGX H200
	4 GPU	8 GPU
Factor de forma	4 NVIDIA H200 SXM	8 NVIDIA H200 SXM
Núcleo Tensor FP8*	16 PETAFLOPS	32 PETAFLOPS
Núcleo Tensor INT8*	16 POPS	32 POPS
Núcleo Tensor FP16/BF16*	8 PETAFLOPS	16 PETAFLOPS
Núcleo Tensor TF32*	4 PETAFLOPS	8 PETAFLOPS
FP32	270 TERAFLOPS	540 TERAFLOPS
FP64	140 TERAFLOPS	270 TERAFLOPS
Núcleo Tensor FP64	270 TERAFLOPS	540 TERAFLOPS
Memoria total	HBM3 de 564 GB	HBM3 de 1,1 TB
Ancho de banda agregado de GPU	19 GB/s	38 GB/s
NVLink	Cuarta generación	Cuarta generación
NVSwitch	N/D	Conmutador NVLink 4
Ancho de banda de GPU a GPU de NVSwitch	N/D	900 GB/s
Ancho de banda agregado total	3,6 TB/s	7,2 TB/s
Networking Bandwidth	0,4TB/s	0,8TB/s

	HGX H100
	4 GPU	8 GPU
Factor de forma	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
Núcleo Tensor FP8*	16 PETAFLOPS	32 PETAFLOPS
Núcleo Tensor INT8*	16 POPS	32 POPS
Núcleo Tensor FP16/BF16*	8 PETAFLOPS	16 PETAFLOPS
Núcleo Tensor TF32*	4 PETAFLOPS	8 PETAFLOPS
FP32	270 TERAFLOPS	540 TERAFLOPS
FP64	140 TERAFLOPS	270 TERAFLOPS
Núcleo Tensor FP64	270 TERAFLOPS	540 TERAFLOPS
Memoria total	HBM3 de 320 GB	HBM3 de 640 GB
Ancho de banda agregado de GPU	13 GB/s	27 GB/s
NVLink	Cuarta generación	Cuarta generación
NVSwitch	N/D	Conmutador NVLink 4
Ancho de banda de GPU a GPU de NVSwitch	N/D	900 GB/s
Ancho de banda agregado total	3,6 TB/s	7,2 TB/s
Networking Bandwidth	0,4TB/s	0,8TB/s

* Con dispersión

Leer la hoja de datos de NVIDIA HGX H100 y HGX H200

Obtén más información sobre la arquitectura NVIDIA Blackwell.

Más información