NVIDIA Multi-Instance GPU

Siete instancias independientes en una sola GPU

La GPU multiinstancia (MIG) aumenta el rendimiento y el valor de NVIDIA Blackwell y Hopper™ GPU de generación. MIG puede dividir la GPU en hasta siete instancias totalmente aisladas con su propia memoria de ancho de banda alta, su caché y sus núcleos de procesamiento. Esto permite a los administradores admitir todas las cargas de trabajo, desde las más pequeñas hasta las más grandes, con calidad de servicio (QoS) garantizada y extendiendo el alcance de los recursos informáticos acelerados a cada usuario.

Información general de ventajas

Ampliar el acceso a la GPU

Con MIG, puedes lograr hasta 7 veces más recursos en una sola GPU. MIG ofrece a los investigadores y desarrolladores más recursos y flexibilidad que nunca.

Optimizar la utilización de GPU

MIG proporciona la flexibilidad de elegir muchos tamaños de instancia diferentes, lo que permite el aprovisionamiento de la instancia de GPU del tamaño correcto para cada carga de trabajo y, en definitiva, ofrece una utilización óptima y maximiza la inversión en centros de datos.

Ejecutar cargas de trabajo simultáneas

MIG permite que las cargas de trabajo de inferencia, entrenamiento y alta computación (HPC) se ejecuten al mismo tiempo en una sola GPU con latencia y rendimiento deterministas. A diferencia del time-slicing, cada carga de trabajo se ejecuta en paralelo, lo que ofrece un alto rendimiento.

Cómo funciona la tecnología

Sin MIG, los distintos trabajos que se ejecutan en la misma GPU, como diferentes solicitudes de inferencia de IA, compiten por los mismos recursos. Un trabajo que consume un ancho de banda de memoria más grande priva a otros de este, lo que provoca que varios trabajos pierdan sus objetivos de latencia. Con MIG, los trabajos se ejecutan simultáneamente en diferentes instancias, cada una con recursos dedicados para el uso de proceso, memoria y ancho de banda de memoria, lo que resulta en un rendimiento predecible con QoS y la máxima utilización de la GPU.

Aprovisionar y configurar instancias según sea necesario

Una GPU se puede dividir en particiones de instancias MIG de diferentes tamaños. Por ejemplo, en una NVIDIA H100, un administrador podría crear dos instancias con 40 GB de memoria cada una, cuatro instancias con 20 GB o siete instancias con 10 GB, o una mezcla.

Las instancias de MIG también se pueden reconfigurar de forma dinámica, lo que permite a los administradores cambiar los recursos de GPU en respuesta a las cambiantes demandas de usuarios y empresas. Por ejemplo, se pueden utilizar siete instancias de MIG durante el día para la inferencia de bajo rendimiento y volver a configurarlas en una instancia de MIG grande por la noche para formación de deep learning.

Ejecutar cargas de trabajo en paralelo de forma segura

Con un conjunto dedicado de recursos de hardware para computación, memoria y memoria caché, cada instancia de MIG ofrece una calidad de servicio (QoS) garantizada y aislamiento de errores. Esto significa que un error en una aplicación que se ejecuta en una instancia no afecta a las aplicaciones que se ejecutan en otras instancias.

También indica que diferentes instancias pueden ejecutar diferentes tipos de cargas de trabajo: desarrollo de modelos interactivos, formación de deep learning, inferencia de IA o aplicaciones HPC Dado que las instancias se ejecutan en paralelo, las cargas de trabajo también lo hacen, pero independientes y aisladas, en la misma GPU física.

MIG en GPU Blackwell

La arquitectura Hopper mejora aún más la MIG al admitir configuraciones multiinquilino y multiusuario en entornos virtualizados en hasta siete instancias de GPU, lo que permite aislar cada instancia de forma segura con informática confidencial en el nivel de hardware y de hipervisor. Los descodificadores de vídeo dedicados para cada instancia de MIG ofrecen un análisis inteligente de vídeo (IVA) seguro y de alto rendimiento en una infraestructura compartida. Gracias a la generación simultánea de perfiles de MIG, los administradores pueden supervisar la aceleración de GPU de un tamaño adecuado y optimizar la asignación de recursos para varios usuarios.

Por su parte, los investigadores con cargas de trabajo más pequeñas, en vez de tener que alquilar una instancia de nube entera, pueden utilizar MIG para aislar sin riesgo alguno una parte de una GPU mientras tienen la seguridad de que sus datos están protegidos en reposo, en tránsito y en uso. Esto mejora la flexibilidad para que los proveedores de servicios en la nube puedan establecer precios que capten a clientes más pequeños.

Ver MIG en acción

Ejecución de varias cargas de trabajo en una sola GPU A100

En esta demo se ejecutan cargas de trabajo de computación de alto rendimiento (HPC) y de IA simultáneamente en la misma GPU A100.

Mejora del rendimiento y la utilización con la GPU multiinstancia

En esta demostración se muestra el rendimiento de la inferencia en un solo segmento de MIG y luego se ajusta linealmente en toda la A100.

Diseñado para TI y DevOps

MIG permite a los equipos de TI y DevOps realizar un aprovisionamiento muy específico de GPU. Cada instancia de MIG se comporta como una GPU independiente para las aplicaciones, por lo que no hay ningún cambio en la plataforma CUDA®. MIG se puede utilizar en los principales entornos informáticos empresariales​.

Especificaciones de MIG

  GB200/B200/B100 H100 H200
Informática confidencial
Tipos de instancias Up to 7x 23GB
Up to 4x 45GB
Up to 2x 95GB
Up to 1x 192GB
7x 10GB
4x 20GB
2x 40GB
1x 80GB
Up to 7x 18GB
Up to 4x 35GB
Up to 2x 71GB
Up to 1x 141GB
Generación de perfiles y supervisión de GPU Simultáneamente en todas las instancias Simultáneamente en todas las instancias Simultáneamente en todas las instancias
Inquilinos seguros 7x 7x 7x
Descodificadores de contenido NVJPEG y NVDEC dedicados por instancia NVJPEG y NVDEC dedicados por instancia NVJPEG y NVDEC dedicados por instancia

Las especificaciones preliminares pueden estar sujetas a cambios

Más información sobre NVIDIA Blackwell.