Supercarga de cargas de trabajo de IA y HPC.
La GPU NVIDIA H200 Tensor Core sobrealimenta las cargas de trabajo de IA generativas y de computación de alto rendimiento (HPC) con capacidades de rendimiento y memoria que cambian el juego. Como la primera GPU con HBM3E, la memoria más grande y rápida del H200 alimenta la aceleración de la IA generativa y los grandes modelos de lenguaje (LLM) al tiempo que avanza la computación científica para las cargas de trabajo de HPC.
1.9X Mas Rapido
1.6X Mas Rapido
110X Mas Rapido
Basada en la arquitectura NVIDIA Hopper, la NVIDIA H200 es la primera GPU que ofrece 141 gigabytes (GB) de la memoria HBM3E a 4.8 terabytes por segundo (TB/s), que casi duplica la capacidad de la GPU NVIDIA H100 Tensor Core con 1.4 veces más ancho de banda de memoria. La memoria más grande y rápida del H200 acelera la IA generativa y las LLM, al tiempo que avanza la computación científica para cargas de trabajo HPC con una mejor eficiencia energética y un menor costo total de propiedad.
Rendimiento medido preliminar, sujeto a cambios.
Llama2 13b: ISL 128, OSL 2K | Rendimiento | 1 GPU H100 BS 64 | 1 GPU H200 BS 128
GPT-3 175B: ISL 80, OSL 200 | 8 GPU H100 BS 64 | 8 GPU H200 BS 128
LLAMA2 70B: ISL 2K, OSL 128 | Rendimiento | 1 GPU H100 BS 8 | 1 GPU H200 BS 32..
En el panorama en constante evolución de la IA, las empresas confían en LLM para abordar una amplia gama de necesidades de inferencia. Un acelerador de inferencia de IA debe entregar el rendimiento más alto en el TCO más bajo cuando se implementa a escala para una base de usuarios masiva.
La H200 aumenta la velocidad de inferencia en hasta 2 veces en comparación con las GPU H100 al manejar LLM como LLAMA2.
El ancho de banda de memoria es crucial para las aplicaciones HPC, ya que permite una transferencia de datos más rápida, reduciendo los cuellos de botella de procesamiento complejos. Para aplicaciones HPC intensivas en memoria, como simulaciones, investigación científica e IA, el ancho de banda de memoria superior de H200 asegura que se puedan acceder y manipular los datos de manera eficiente, lo que lleva a 110 veces un tiempo más rápido a los resultados en comparación con las CPU.
Rendimiento proyectado, sujeto a cambios.
HPC MILC- DataSet NERSC Apex Medium | 4-GPU HGX H200 | dual de Sapphire Rapids 8480
Aplicaciones HPC- CP2K: Conjuto de Datos H2O-32-RI-DRPA-96Points | GROMACS: Conjuto de Datos STMV | Icono: Conjuto de Datos R2B5 | MILC: Conjuto de Datos NERSC Apex Medium | Chroma: Conjuto de Datos HMC Medium | Espresso Cuántico: Conjuto de Datos Ausurf112 | 1x H100 | 1x H200.
NVIDIA H200 NVL es ideal para diseños de estantes empresariales de menor consumo energético y refrigerados por aire que requieren configuraciones flexibles, lo que permite acelerar cada carga de trabajo de IA y HPC, independientemente del tamaño. Con hasta cuatro GPU conectadas por NVIDIA NVLink™ y un aumento de memoria de 1,5 veces, la inferencia de grandes modelos de lenguage (LLM) puede acelerarse en hasta 1,7 veces y las aplicaciones de HPC lograr 1,3 veces más desempeño en comparación con H100 NVL.
NVIDIA H200 NVL viene con una suscripción de cinco años a NVIDIA AI Enterprise y simplifica la forma en que creas una plataforma empresarial preparada para la IA. H100 acelera el desarrollo y la implementación de IA para soluciones de IA generativa listas para la producción, incluida la visión por computadora, la IA de voz, la generación aumentada de recuperación (RAG) y más. NVIDIA AI Enterprise incluye NVIDIA NIM™, un conjunto de microservicios fáciles de usar diseñados para acelerar la implementación de IA generativa empresarial. Juntas, las implementaciones tienen seguridad, capacidad de administración, estabilidad y soporte de nivel empresarial. Esto da como resultado soluciones de IA optimizadas para el rendimiento que ofrecen un valor empresarial más rápido e información procesable.
H200 SXM¹ | H200 NVL¹ | |
---|---|---|
FP64 | 34 TFLOPS | 30 TFLOPS |
FP64 Tensor Core | 67 TFLOPS | 60 TFLOPS |
FP32 | 67 TFLOPS | 60 TFLOPS |
TF32 Tensor Core² | 989 TFLOPS | 835 TFLOPS |
BFLOAT16 Tensor Core² | 1,979 TFLOPS | 1,671 TFLOPS |
FP16 Tensor Core² | 1,979 TFLOPS | 1,671 TFLOPS |
FP8 Tensor Core² | 3,958 TFLOPS | 3,341 TFLOPS |
INT8 Tensor Core² | 3,958 TFLOPS | 3,341 TFLOPS |
Memoria de GPU | 141GB | 141GB |
Ancho de Banda de Memoria de GPU | 4.8TB/s | 4.8TB/s |
Decodificadores | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
Computación Confidencial | Compatible | Compatible |
Potencia de Diseño Térmico Máximo (TDP) | Hasta 700W (configurable) | Hasta 600 W (configurable) |
GPU de Múltiples Instancias | Hasta 7 MIGs @18GB cada uno | Hasta 7 MIG a 16,5GB cada uno |
Formato | SXM | PCIe Refrigeración de aire de doble ranura |
Interconexión | NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s |
Puente NVIDIA NVLink de 2 o 4 vías: 900GB/s por GPU PCIe Gen5: 128GB/s |
Opciones de Servidor | Socio NVIDIA HGX ™ H200 y Sistemas Certificados por NVIDIA™ con 4 u 8 GPU | Socio de NVIDIA MGX™ H200 NVL y Sistemas Certificados por NVIDIA con hasta 8 GPU |
NVIDIA AI Enterprise | Añadir | Incluido |
1 Especificaciones preliminares. Puede estar sujeto a cambios. |
Notifíqueme cuando este producto esté disponible.