GPU NVIDIA H100 Tensor Core

Desempeño, escalabilidad y seguridad de un nivel excepcional para cada centro de datos.

Introducción
Cargas de trabajo
H100 NVL
NVIDIA AI Enterprise
Especificaciones

Introducción

Introducción
Cargas de trabajo
H100 NVL
NVIDIA AI Enterprise
Especificaciones

Un salto exponencial para la computación acelerada

La GPU NVIDIA H100 Tensor Core ofrece un nivel excepcional de desempeño, escalabilidad y seguridad para cada carga de trabajo. H100 utiliza innovaciones revolucionarias basadas en la arquitectura NVIDIA Hopper™ para ofrecer una IA conversacional líder en la industria, lo que acelera 30 veces los modelos extensos de lenguaje (LLM). H100 también incluye un motor transformador dedicado para resolver modelos de lenguaje con billones de parámetros.

Leer la hoja de datos de NVIDIA H100

Resumen del producto NVIDIA H100 NVL

Acelere las cargas de trabajo de manera segura de la empresa a la exaescala

Entrenamiento de IA hasta 4 veces mayor en GPT-3

El desempeño proyectado puede cambiar. Clúster A100 de entrenamiento para GPT-3 175B: red HDR IB, clúster H100: red NDR IB | Switch Transformer para entrenamiento de mezcla de expertos (MoE) - variante XXL con 395 mil millones de parámetros en un conjunto de datos de 1 billón de tokens, clúster A100: red HDR IB, clúster H100: red NDR IB con sistema de switch NVLink donde se indique.

Entrenamiento de IA transformacional

H100 cuenta con núcleos Tensor de cuarta generación y el motor Transformer con precisión FP8 que proporciona un entrenamiento hasta 4 veces más rápido, en comparación con la generación anterior para los modelos GPT-3 (175B). La combinación de NVLink de cuarta generación, que ofrece 900 gigabytes por segundo (GB/s) de interconexión entre las GPU; el sistema de red NDR Quantum-2 InfiniBand, que acelera la comunicación colectiva por cada GPU a través de nodos; PCIe Gen5 y el software NVIDIA Magnum IO™ ofrece escalabilidad eficiente útil para pequeñas empresas hasta clústeres de GPU enormes y unificados.

La implementación de las GPU H100 a escala de centros de datos ofrece un desempeño sobresaliente y pone la próxima generación de computación de alto rendimiento (HPC) con exaescala e IA con billones de parámetros al alcance de todos los investigadores.

Experimente la IA de NVIDIA y NVIDIA H100 en NVIDIA LaunchPad

Inferencia de aprendizaje profundo en tiempo real

La IA resuelve una amplia variedad de desafíos comerciales, ya que usa una amplia variedad de redes neuronales. Un gran acelerador de inferencia de IA no solo tiene que ofrecer el desempeño más alto, sino también la versatilidad para acelerar estas redes.

H100 amplía el liderazgo de inferencia líder en el mercado de NVIDIA con varios avances que aceleran la inferencia hasta 30 veces y ofrecen la latencia más baja. Los núcleos Tensor de cuarta generación aceleran todas las precisiones, lo que incluye FP64, TF32, FP32, FP16, INT8 y ahora FP8, para reducir el uso de memoria y aumentar el desempeño, manteniendo a la vez la precisión de los LLM.

Un desempeño de inferencia de IA hasta 30 veces mayor en los modelos más extensos

Inferencia del chatbot Megatron (530,000 millones de parámetros)

Inferencia de aprendizaje profundo en tiempo real

El desempeño proyectado puede cambiar. Inferencia en el chatbot Megatron, basado en modelos de 530 mil millones de parámetros, para longitud de secuencia de entrada=128, longitud de secuencia de salida=20 | Clúster A100: red HDR IB | Clúster H100: sistema de conmutación NVLink, NDR IB

Desempeño hasta 7 veces más alto para aplicaciones de HPC

Computación de alto rendimiento a exaescala

La plataforma para centros de datos de NVIDIA ofrece constantemente incrementos de desempeño que superan la Ley de Moore. Además, las nuevas y revolucionarias capacidades de IA de H100 amplifican aún más la potencia de HPC+IA para acelerar el tiempo de descubrimiento para los científicos e investigadores que trabajan en la resolución de los desafíos más importantes del mundo.

H100 triplica las operaciones de punto flotante por segundo (FLOPS) de los núcleos Tensor de doble precisión, logrando 60 teraflops de computación FP64 para HPC. Las aplicaciones de HPC fusionadas con IA también pueden aprovechar la precisión TF32 de H100 para lograr un petaflop de tasa de transferencia para operaciones de multiplicación de matrices de precisión única, sin cambios en el código.

H100 también cuenta con nuevas instrucciones DPX que ofrecen un desempeño 7 veces más alto en A100 y 40 veces más velocidad que las CPU en algoritmos de programación dinámicos, como Smith-Waterman, para la alineación de las secuencias de ADN y la alineación de proteínas para la predicción de la estructura de proteínas.

Revise el desempeño más reciente de GPU en aplicaciones de HPC

Comparación de instrucciones DPX en NVIDIA HGX™ H100 de 4 GPU versus IceLake de doble zócalo y 32 núcleos.

Análisis de datos acelerado

A menudo, el análisis de datos consume la mayor parte del tiempo en el desarrollo de aplicaciones de IA. Dado que los grandes conjuntos de datos se dispersan en varios servidores, las soluciones de escalabilidad horizontal con servidores de solo CPU básicos se verán estancadas por la falta de desempeño de computación escalable.

Los servidores acelerados con H100 ofrecen, junto con 3 terabytes por segundo (TB/s) de ancho de banda de memoria por GPU y escalabilidad con NVLink y NVSwitch™, la potencia de computación para abordar el análisis de datos con alto desempeño y escalabilidad y admitir enormes conjuntos de datos. La plataforma de centros de datos de NVIDIA está en una posición única para acelerar estas enormes cargas de trabajo con niveles incomparables de desempeño y eficacia, ya que se combina con NVIDIA Quantum-2 Infiniband, el software Magnum IO, Spark 3.0 acelerado por GPU y NVIDIA RAPIDS™.

Utilización lista para empresas

Los gerentes de TI buscan maximizar la utilización (pico y promedio) de los recursos de computación en el centro de datos. A menudo, emplean la reconfiguración dinámica de la computación a los recursos del tamaño adecuado para las cargas de trabajo en uso.

H100 con MIG les permite a los administradores de infraestructura estandarizar su infraestructura acelerada por GPU, al mismo tiempo que tienen la flexibilidad de aprovisionar recursos de GPU con un mayor detalle, para proporcionar de forma segura a los desarrolladores la cantidad correcta de procesamiento acelerado y optimizar el uso de todos sus recursos de GPU.

Más información sobre MIG

Computación confidencial integrada

Las soluciones de computación confidencial tradicionales se basan en la CPU, lo que es demasiado limitado para cargas de trabajo de computación intensiva, como la IA a escala. La computación confidencial de NVIDIA es una función de seguridad integrada de la arquitectura NVIDIA Hopper que convirtió a H100 en el primer acelerador del mundo con estas capacidades. Con NVIDIA Blackwell, la oportunidad de aumentar exponencialmente el desempeño al tiempo que se protege la confidencialidad y la integridad de los datos y las aplicaciones en uso permite habilitar perspectivas sobre los datos como nunca antes. Ahora los clientes pueden usar un entorno de ejecución confiable (TEE) basado en hardware que protege y aísla toda la carga de trabajo de la manera más eficiente.

Más información sobre la computación confidencial de NVIDIA

Soluciones de computación confidencial de NVIDIA

Desempeño excepcional para HPC e IA a gran escala

La GPU Hopper Tensor Core potenciará la arquitectura NVIDIA Grace Hopper de CPU+GPU, diseñada específicamente para la computación acelerada a escala de terabytes, que proporciona un desempeño 10 veces más alto en HPC e IA de modelos extensos. La CPU NVIDIA Grace aprovecha la flexibilidad de la arquitectura Arm® para crear una arquitectura de CPU y de servidor diseñada desde cero para la computación acelerada. La GPU Hopper se combina con la CPU Grace mediante la interconexión de chips ultrarrápida de NVIDIA, que ofrece 900 GB/s de ancho de banda, 7 veces más rvelocidad que PCIe Gen5. Este diseño innovador ofrecerá un ancho de banda de memoria del sistema combinado hasta 30 veces mayor a la GPU en comparación con los servidores más rápidos de la actualidad, y un desempeño hasta 10 veces mayor para aplicaciones que ejecutan terabytes de datos.

Más información sobre NVIDIA Grace

Potencie la inferencia de modelos extensos de lenguaje con H100 NVL

Para los LLM de hasta 70 mil millones de parámetros (Llama 2 70B), NVIDIA H100 NVL basado en PCIe con el bridge NVLink utiliza Transformer Engine, NVLink y 188 GB de memoria HBM3 para proporcionar un desempeño óptimo y un fácil escalado en cualquier centro de datos, lo que incorpora los LLM a los procesos convencionales. Los servidores equipados con las GPU H100 NVL aumentan el desempeño de Llama 2-70B hasta 5 veces más que los sistemas NVIDIA 100, manteniendo a la vez una baja latencia en entornos de centros de datos con restricciones en el uso de energía.

Listo para empresas: El software de IA simplifica el desarrollo y la implementación

NVIDIA H100 NVL viene con una suscripción de cinco años a NVIDIA AI Enterprise y simplifica la forma en que se construye una plataforma empresarial lista para la IA. H100 acelera el desarrollo y la implementación de la IA para soluciones de IA generativa listas para la producción, que incluyen visión computarizada, IA del habla, generación aumentada por recuperación (RAG) y más. NVIDIA AI Enterprise incluye NVIDIA NIM^TM, un conjunto de microservicios fáciles de usar diseñados para acelerar la implementación de la IA generativa empresarial. Juntas, las implementaciones tienen seguridad, capacidad de administración, estabilidad y soporte de nivel empresarial. Esto da como resultado soluciones de IA optimizadas para desempeño que proporcionan perspectivas que se pueden llevar a la acción y un valor empresarial más rápido.

Active su licencia de NVIDIA AI Enterprise

Especificaciones del producto

	H100 SXM	H100 NVL
FP64	34 teraFLOPS	30 teraFLOPs
Núcleo Tensor FP64	67 teraFLOPS	60 teraFLOPs
FP32	67 teraFLOPS	60 teraFLOPs
Núcleo Tensor TF32^*	989 teraFLOPS	835 teraFLOPs
Núcleo Tensor BFLOAT16^*	1,979 teraFLOPS	1,671 teraFLOPS
Núcleo Tensor FP16^*	1,979 teraFLOPS	1,671 teraFLOPS
Núcleo Tensor FP8^*	3,958 teraFLOPS	3,341 teraFLOPS
Núcleo Tensor INT8^*	3,958 TOPS	3,341 TOPS
Memoria de GPU	80 GB	94 GB
Ancho de banda de memoria de GPU	3.35TB/s	3.9 TB/s
Decodificadores	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG
Potencia máxima de diseño térmico (TDP)	Hasta 700 W (configurable)	350 W - 400 W (configurable)
GPU de instancias múltiples	Hasta 7 MIG a 10 GB cada una	Hasta 7 MIG a 12 GB cada una
Formato	SXM	PCIe de doble ranura refrigerado por aire
Interconexión	NVIDIA NVLink™: 900 GB/s PCIe Gen5: 128 GB/s	NVIDIA NVLink: 600 GB/s PCIe Gen5: 128 GB/s
Opciones de servidor	Socio de NVIDIA HGX H100 y Sistemas Certificados por NVIDIA ™con 4 u 8 GPU NVIDIA DGX H100 con 8 GPU	Socios y Sistemas Certificados por NVIDIA con 1 a 8 GPU
NVIDIA AI Enterprise	Complemento	Incluido

* Con baja densidad

Explora en detalle la arquitectura NVIDIA Hopper.

Leer el Documento técnico