Para potenciar las cargas de trabajo de IA y HPC.
La GPU NVIDIA H200 Tensor Core acelera las cargas de trabajo generativas de IA y computación de alto rendimiento (HPC) con innovadoras capacidades de memoria y rendimiento. Como primera GPU con HBM3e, la H200, con una memoria más grande y rápida, impulsa la aceleración de la IA generativa y los modelos de lenguaje de gran tamaño (LLM), al tiempo que hace avanzar la computación científica para cargas de trabajo de HPC.
1.9X más rápido
1.6X más rápido
110X más rápido
Basada en la arquitectura de NVIDIA Hopper™, la NVIDIA H200 es la primera GPU que ofrece 141 gigabytes (GB) de memoria HBM3e a 4,8 terabytes por segundo (TB/s), lo que supone casi el doble de capacidad que la GPU NVIDIA H100 Tensor Core, con 1,4 veces más ancho de banda de memoria. La H200 cuenta con una memoria más grande y rápida que acelera la IA generativa y los LLM, a la vez que hace avanzar la computación científica para cargas de trabajo de HPC con una mejor eficiencia energética y un menor coste total de propiedad.
Especificaciones preliminares. Pueden estar sujetas a cambios.
Llama2 13B: ISL 128, OSL 2K | Throughput | H100 SXM 1x GPU BS 64 | H200 SXM 1x GPU BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 SXM GPUs BS 64 | x8 H200 SXM GPUs BS 128
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 SXM 1x GPU BS 8 | H200 SXM 1x GPU BS 32.
En el panorama en constante evolución de la IA, las empresas confían en los LLM para abordar una amplia gama de necesidades de inferencia. Un acelerador de inferencia de IA debe ofrecer el mayor rendimiento con el coste total de propiedad (TCO) más bajo cuando se implementa a escala para una base de usuarios de gran tamaño.
La H200 aumenta las velocidades de inferencia hasta 2 veces en comparación con las GPU H100 al manejar LLM como Llama2.
El ancho de banda de memoria es crucial para las aplicaciones HPC, ya que permite una transferencia de datos más rápida, lo que reduce los cuellos de botella de procesamiento complejos. Para aplicaciones HPC con uso intensivo de memoria, como simulaciones, investigación científica e inteligencia artificial, el mayor ancho de banda de memoria de la H200 garantiza que se pueda acceder a los datos y manipularlos de forma eficiente, lo que conduce a un tiempo de obtención de resultados 110 veces más rápido en comparación con las CPU.
Especificaciones preliminares. Pueden estar sujetas a cambios.
HPC Apps- CP2K: conjunto de datos H2O-32-RI-dRPA-96points | GROMACS: conjunto de datos STMV | ICONO: conjunto de datos r2b5 | MILC: conjunto de datos NERSC Apex Medium | Chroma: conjunto de datos HMC Medium | Quantum Espresso: conjunto de datos AUSURF112 | 1 H100 SXM | 1 H200 SXM.
La NVIDIA H200 NVL es ideal para diseños de rack empresarial de menor potencia y refrigerados por aire que requieren configuraciones flexibles, lo que ofrece aceleración para cada carga de trabajo de IA y HPC, independientemente del tamaño. Con hasta cuatro GPU conectadas por NVIDIA NVLink™ y un aumento de memoria de 1,5 veces, la inferencia de modelos lingüísticos de gran tamaño (LLM) se puede acelerar hasta 1,7 veces y las aplicaciones de HPC logran hasta 1,3 veces más rendimiento que con la H100 NVL.
NVIDIA H200 NVL se incluye con una suscripción de cinco años a NVIDIA AI Enterprise y simplifica la forma de construir una plataforma empresarial lista para la IA. H200 acelera el desarrollo y la implementación de soluciones de IA generativa listas para la producción, incluidas la visión por ordenador, IA de voz, generación aumentada de recuperación (RAG, por sus siglas en inglés) y mucho más. NVIDIA AI Enterprise incluye NVIDIA NIM™, un conjunto de microservicios fáciles de usar diseñados para acelerar la implementación de la IA generativa empresarial. Juntas, las implementaciones cuentan con seguridad, administración, estabilidad y soporte de nivel empresarial. Esto da como resultado soluciones de IA optimizadas que brindan valor comercial e información práctica más rápido.
Factor de forma | H200 SXM¹ | H200 NVL¹ |
---|---|---|
FP64 | 34 TFLOPS | 30 TERAFLOPS |
FP64 Tensor Core | 67 TFLOPS | 60 TERAFLOPS |
FP32 | 67 TFLOPS | 60 TERAFLOPS |
Tensor Core de TF32² | 989 TFLOPS | 835 TERAFLOPS |
Tensor Core de BFLOAT16² | 1,979 TFLOPS | 1671 TERAFLOPS |
Tensor Core de FP16² | 1,979 TFLOPS | 1671 TERAFLOPS |
Tensor Core de FP8² | 3,958 TFLOPS | 3341 TERAFLOPS |
Tensor Core de INT8² | 3,958 TFLOPS | 3341 TERAFLOPS |
Memoria de la GPU | 141GB | 141 GB |
Ancho de banda de memoria de la GPU | 4,8TB/s | 4,8 TB/s |
Decodificadores | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
Computación confidencial | Compatible | Compatible |
Potencia máxima de diseño térmico (TDP) | Hasta 700 W (configurable) | Hasta 600 W (configurable) |
GPU de varias instancias | Hasta 7 MIG a 18 GB cada uno | Hasta 7 MIG @16,5 GB cada uno |
Factor de forma | SXM | PCIe Refrigeración por aire de dos ranuras |
Interconexión | NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s |
"Puente NVIDIA NVLink de 2 o 4 vías: 900 GB/s por GPU PCIe Gen5: 128 GB/s |
Opciones del servidor | Sistemas certificados por NVIDIA y partners de NVIDIA HGX™ H200 con 4 u 8 GPU | Partner NVIDIA MGX™ H200 NVL y sistemas certificados por NVIDIA con hasta 8 GPU |
NVIDIA AI Enterprise | Complemento | Incluido |
1 Especificaciones preliminares. Puede estar sujeto a cambios. |
Obtenga más información sobre el rendimiento del entrenamiento y de la inferencia de nuestro centro de datos.