GPU NVIDIA H100 con núcleo Tensor

Rendimiento, escalabilidad y seguridad extraordinarios para todos los centros de datos.

Introducción
Cargas de trabajo
H100 NVL
NVIDIA AI Enterprise
Especificaciones

Introducción

Introducción
Cargas de trabajo
H100 NVL
NVIDIA AI Enterprise
Especificaciones

Un salto exponencial para la computación acelerada

La GPU NVIDIA H100 con núcleo Tensor ofrece rendimiento, escalabilidad y seguridad excepcionales para todas las cargas de trabajo. La H100 utiliza innovaciones revolucionarias basadas en la arquitectura NVIDIA Hopper™ para ofrecer una IA conversacional líder en el sector, lo que acelera 30 veces la velocidad de los modelos lingüísticos de gran tamaño (LLM). H100 también incluye un motor transformador dedicado para resolver modelos lingüísticos de billones de parámetros.

Leer la hoja de datos de NVIDIA H100

Descripción del producto NVIDIA H100 NVL

Acelere las cargas de trabajo de forma segura, de la empresa a la exaescala

Entrenamiento de IA hasta 4 veces superior en GPT-3

El rendimiento proyectado está sujeto a cambios. Clúster A100 de entrenamiento GPT-3 175B: red HDR IB, clúster H100: red NDR IB | Variante XXL del conmutador transformador de entrenamiento Mezcla de expertos (MoE) con parámetros 395B en un conjunto de datos de token 1T, clúster A100: red HDR IB, clúster H100: red NDR IB con el sistema de conmutación NVLink donde se indique.

Entrenamiento de IA transformacional

La H100 cuenta con núcleos Tensor de cuarta generación y un motor transformador con precisión FP8 que proporciona entrenamiento hasta 4 veces más rápido con respecto a la generación anterior para modelos GPT-3 (175B). La combinación de la cuarta generación de NVLink, que ofrece 900 gigabytes por segundo (GB/s) de interconexión de GPU a GPU; redes NDR Quantum-2 InfiniBand, que aceleran la comunicación de todas las GPU en todos los nodos; PCIe Gen5 y el software NVIDIA Magnum IO™ ofrecen una escalabilidad eficiente, desde sistemas de pequeñas empresas hasta clústeres de GPU masivos y unificados.

La implementación de GPU H100 a escala de centro de datos ofrece un rendimiento sin precedentes y pone al alcance de todos los investigadores la nueva generación de computación de alto rendimiento (HPC) a exaescala y una IA con billones de parámetros.

Experimente NVIDIA AI y NVIDIA H100 en NVIDIA LaunchPad

Inferencia de deep learning en tiempo real

La IA resuelve diversos desafíos empresariales, utilizando una amplia gama de redes neuronales. Un gran acelerador de inferencia de IA no solo ofrece el mayor rendimiento, sino también la versatilidad para acelerar estas redes.

H100 amplía el liderazgo de inferencia líder en el mercado de NVIDIA con varios avances que aceleran la inferencia hasta 30 veces y ofrecen la latencia más baja. Núcleos Tensor de cuarta generación que aceleran todas las precisiones, incluyendo FP64, TF32, FP32, FP16, INT8, y ahora FP8, para reducir el uso de memoria y aumentar el rendimiento sin perder precisión en los LLM.

Rendimiento de inferencia por IA hasta 30 veces superior en los modelos de mayor tamaño

Inferencia de Megatron Chatbot (530 000 millones de parámetros)

Inferencia de deep learning en tiempo real

El rendimiento proyectado está sujeto a cambios. Inferencia en el chatbot basada en modelos de parámetros Megatron 530B para longitud de secuencia de entrada = 128, longitud de secuencia de salida = 20 | Clúster A100: red HDR IB | Clúster H100: sistema de conmutación NVLink, NDR IB

Rendimiento hasta 7 veces superior para aplicaciones HPC

Computación de alto rendimiento de exaescala

La plataforma de centros de datos NVIDIA ofrece constantemente mejoras de rendimiento más allá de la ley de Moore. Y las nuevas y revolucionarias capacidades de IA de la H100 amplían aún más la potencia de HPC+IA para acelerar el tiempo de descubrimiento para científicos e investigadores que trabajan en resolver los desafíos más importantes del mundo.

La H100 triplica las operaciones de punto flotante por segundo (FLOPS) de los núcleos Tensor de doble precisión, lo que ofrece 60 teraFLOPS de computación FP64 para HPC. Las aplicaciones HPC fusionadas con IA también pueden aprovechar la precisión TF32 de la H100 para lograr un petaFLOP de rendimiento para operaciones de multiplicación de matriz de precisión única, sin cambios de código.

La H100 también cuenta con nuevas instrucciones de DPX que ofrecen un rendimiento 7 veces superior en A100 y aceleraciones de 40 veces a través de CPU en algoritmos de programación dinámicos como Smith-Waterman para la alineación de la secuencia de ADN y la alineación de proteínas para la predicción de su estructura.

Revise el rendimiento más reciente de la GPU en aplicaciones HPC

Comparación de instrucciones DPX en NVIDIA HGX™ H100 de 4 GPU frente a IceLake de 32 núcleos de doble zócalo.

Análisis de datos acelerado

El análisis de datos suele consumir la mayor parte del tiempo en el desarrollo de aplicaciones de IA. Dado que los conjuntos de datos de gran tamaño se encuentran dispersos en varios servidores, las soluciones de escalado horizontal con servidores con solo CPU básica se detienen por la falta de rendimiento computacional escalable.

Los servidores acelerados con H100 ofrecen la potencia informática, junto con 3 terabytes por segundo (TB/s) de ancho de banda de memoria por GPU y escalabilidad con NVLink y NVSwitch, para abordar el análisis de datos con alto rendimiento y escalar para admitir conjuntos de datos masivos. Junto con NVIDIA Quantum-2 InfiniBand, el software Magnum IO, Spark 3.0 acelerado por GPU y NVIDIA RAPIDS™, la plataforma de centro de datos NVIDIA tiene una capacidad única para acelerar estas enormes cargas de trabajo con niveles de rendimiento y eficiencia sin precedentes.

Utilización preparada para la empresa

Los responsables de TI buscan maximizar el uso (tanto máximo como medio) de los recursos informáticos en el centro de datos. A menudo, emplean reconfiguración dinámica de computación a recursos de tamaño adecuado para cargas de trabajo en uso.

La H100 con MIG permite a los administradores de infraestructura estandarizar su infraestructura acelerada por GPU al mismo tiempo que tienen la flexibilidad de aprovisionar recursos de GPU con mayor granularidad para proporcionar de forma segura a los desarrolladores la cantidad adecuada de computación acelerada y optimizar el uso de todos sus recursos de GPU.

Más información sobre MIG

Computación confidencial integrada

Las soluciones de computación confidencial tradicionales están basadas en CPU, lo que es demasiado limitado para las cargas de trabajo de computación intensiva, como la IA a escala. La computación confidencial de NVIDIA es una característica de seguridad integrada de la arquitectura NVIDIA Hopper que hizo de la NVIDIA H100 el primer acelerador del mundo con este tipo de capacidades. Con NVIDIA Blackwell, la posibilidad de aumentar exponencialmente el rendimiento, al tiempo que protege la confidencialidad e integridad de los datos, además de las aplicaciones en uso, cuenta con la capacidad para desvelar información nunca vista sobre los datos. Los clientes ahora pueden utilizar un entorno de ejecución de confianza (TEE) basado en hardware que protege y aísla toda la carga de trabajo de la forma más eficiente.

Más información sobre la computación confidencial de NVIDIA

Soluciones de computación confidencial de NVIDIA

Rendimiento excepcional para IA y HPC a gran escala

La GPU Hopper con núcleo Tensor potenciará la arquitectura NVIDIA Grace Hopper CPU+GPU, diseñada específicamente para computación acelerada a escala de terabytes y que proporciona un rendimiento 10 veces mayor en HPC e IA de modelos grandes. La CPU NVIDIA Grace aprovecha la flexibilidad de la arquitectura Arm® para crear una arquitectura de CPU y servidor diseñada desde cero para la computación acelerada. La GPU Hopper se combina con la CPU Grace con la interconexión ultrarrápida de chip a chip de NVIDIA, que ofrece 900 GB/s de ancho de banda, 7 veces más rápido que PCIe Gen5. Este innovador diseño ofrecerá hasta 30 veces más ancho de banda de memoria agregado en comparación con los servidores más rápidos de hoy en día y un rendimiento hasta 10 veces superior para aplicaciones que ejecutan terabytes de datos.

Más información sobre NVIDIA Grace

Potencie la inferencia de los modelos lingüísticos de gran tamaño con H100 NVL

Para LLM de hasta 70 000 millones de parámetros (Llama 2 70B), NVIDIA H100 NVL basada en PCIe con puente NVLink utiliza motor transformador, NVLink y 188 GB de memoria HBM3 para proporcionar un rendimiento óptimo y un fácil escalado en cualquier centro de datos, generalizando los LLM. Los servidores equipados con GPU H100 NVL aumentan el rendimiento de Llama 2 70B hasta 5 veces sobre el de los sistemas NVIDIA A100, al tiempo que mantienen una baja latencia en entornos de centros de datos con limitaciones de potencia.

Listo para la empresa: el software de IA agiliza el desarrollo y la implementación

NVIDIA H100 NVL incluye una suscripción de cinco años a NVIDIA AI Enterprise y simplifica la forma de construir una plataforma empresarial lista para la IA. La H100 acelera el desarrollo y la implementación de soluciones de IA generativa listas para la producción, incluidas la visión por ordenador, IA de voz, generación aumentada por recuperación (RAG, por sus siglas en inglés) y mucho más. NVIDIA AI Enterprise incluye NVIDIA NIM^™, un conjunto de microservicios fáciles de usar diseñados para acelerar la implementación de la IA generativa empresarial. Juntas, las implementaciones cuentan con seguridad, administración, estabilidad y soporte de nivel empresarial. Esto da como resultado soluciones de IA optimizadas que brindan valor comercial e información práctica más rápido.

Active su licencia de NVIDIA AI Enterprise

Especificaciones del producto

	H100 SXM	H100 NVL
FP64	34 teraFLOPS	30 teraFLOPS
Núcleo Tensor FP64	67 teraFLOPS	60 teraFLOPS
FP32	67 teraFLOPS	60 teraFLOPS
Núcleo Tensor TF32^*	989 teraFLOPS	835 teraFLOPs
Núcleo Tensor BFLOAT16^*	1979 teraFLOPS	1671 teraFLOPS
Núcleo Tensor FP16^*	1979 teraFLOPS	1671 teraFLOPS
Núcleo Tensor FP8^*	3958 teraFLOPS	3341 teraFLOPS
Núcleo Tensor INT8^*	3958 TOPS	3341 TOPS
Memoria de la GPU	80 GB	94 GB
Ancho de banda de memoria de la GPU	3,35 TB/s	3,9 TB/s
Decodificadores	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG
Potencia máxima de diseño térmico (TDP)	Hasta 700 W (configurable)	350-400 W (configurable)
GPU de varias instancias	Hasta 7 MIG a 10 GB cada uno	Hasta 7 MIG a 12 GB cada uno
Factor de forma	SXM	PCIe de doble ranura y refrigeración por aire
Interconexión	NVIDIA NVLink™: 900 GB/s PCIe Gen5: 128 GB/s	NVIDIA NVLink: 600 GB/s PCIe Gen5: 128 GB/s
Opciones del servidor	Sistemas NVIDIA HGX H100 de socios de NVIDIA y certificados por NVIDIA^™ con 4 u 8 GPU NVIDIA DGX H100 con 8 GPU	Sistemas certificados por NVIDIA y partners con entre 1 y 8 GPU
NVIDIA AI Enterprise	Complemento	Incluido

* Con dispersión

Sumérjase en la arquitectura NVIDIA Hopper.

Leer el informe técnico