Arquitectura NVIDIA Ampere

El corazón de los centros de datos elásticos de mayor rendimiento del mundo.

El núcleo de IA y HPC en el centro de datos moderno

Resolviendo los desafíos científicos, industriales y empresariales más importantes del mundo con IA y HPC. Visualización de contenido complejo para crear productos de vanguardia, contar historias inmersivas y reimaginar las ciudades del futuro. Extracción de nuevos conocimientos de conjuntos de datos masivos. La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, está a la altura de todos estos desafíos, a la vez que proporciona una aceleración inigualable en todas las escalas.

Innovaciones pioneras

Fabricado con 54 mil millones de transistores, la arquitectura NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande jamás construido y cuenta con cinco innovaciones pioneras.

Tensor Cores de tercera generación

Introducido por primera vez en la arquitectura NVIDIA Volta, la tecnología NVIDIA Tensor Core ha traído velocidades espectaculares a la IA, reduciendo los tiempos de entrenamiento de semanas a horas y proporcionando una aceleración masiva a la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones al aportar nuevas precisiones (Tensor Float 32 (TF32) y coma flotante 64 (FP64) para acelerar y simplificar la adopción de IA y ampliar la potencia de Tensor Cores a HPC.

TF32 funciona igual que FP32 y ofrece velocidades hasta 20 veces superiores para la IA sin necesidad de ningún cambio de código. Con la Precisión combinada y automática de NVIDIA, los investigadores pueden obtener un rendimiento 2X adicional con precisión mixta automática y FP16 agregando solo un par de líneas de código. Y con soporte para bfloat16, INT8 e INT4, Tensor Cores en la arquitectura NVIDIA Ampere, las GPU Tensor Core crean un acelerador increíblemente versátil tanto para el entrenamiento como para la inferencia de IA. Al llevar la potencia de Tensor Cores a las GPU HPC, A100 y A30 también permite operaciones de matriz con una precisión FP64 completa y certificada por IEEE.

Tecnología NVIDIA Tensor Core de tercera generación
GPU multiinstancia (MIG) es compatible con las GPU NVIDIA A100 y A30

GPU multiinstancia (MIG)

Cada aplicación de IA y HPC puede beneficiarse de la aceleración, pero no todas las aplicaciones necesitan el rendimiento de una GPU completa. GPU multiinstancia (MIG) es una característica compatible con las GPU A100 y A30 que permite que las cargas de trabajo compartan la GPU. Con MIG, cada GPU se puede particionar en varias instancias de GPU, totalmente aisladas y protegidas a nivel de hardware con sus propios núcleos de computación, caché y memoria de gran ancho de banda. Ahora, los desarrolladores pueden acceder a una aceleración innovadora para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Además, los administradores de TI pueden ofrecer una aceleración de GPU del tamaño adecuado para una utilización óptima y ampliar el acceso a todos los usuarios y aplicaciones en entornos virtualizados y sin sistema operativo.

Dispersión en inferencia de IA y aprendizaje automático

Dispersión estructural

Las redes de IA modernas son grandes y cada vez más grandes, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para predicciones e inferencias precisas, y algunos se pueden convertir en ceros para hacer que los modelos sean "dispersos" sin comprometer la precisión. Los Tensor Cores pueden proporcionar un rendimiento hasta 2 veces mayor para los modelos dispersos. Si bien la función de dispersión beneficia más fácilmente la inferencia de IA, también se puede usar para mejorar el rendimiento del entrenamiento del modelo.

Núcleos RT de segunda generación

Los núcleos RT de segunda generación de la arquitectura NVIDIA Ampere en NVIDIA A40 ofrecen aceleraciones masivas para cargas de trabajo como el renderizado fotorrealista del contenido de la película, las evaluaciones de diseño arquitectónico y la creación de prototipos virtuales de diseños de productos. Los núcleos RT también aceleran el renderizado de desenfoque de movimiento de trazado de rayos para obtener resultados más rápidos con mayor precisión visual y pueden ejecutar simultáneamente trazado de rayos con las funciones de sombreado y de eliminación de ruido.

GPU NVIDIA A40 y A10
GPU NVIDIA A100 Tensor Core

Memoria más inteligente y rápida

A100 trae enormes cantidades de computación a los centros de datos. Para mantener esos motores de computación en funcionamiento, tiene un ancho de banda de memoria de 2 terabytes por segundo (TB/s) líder en su clase, más del doble que la generación anterior. Además, el A100 tiene una memoria en el chip significativamente mayor, incluida una memoria caché de nivel 2 de 40 megabytes (MB), 7 veces mayor que la generación anterior, para maximizar el rendimiento computacional.

Optimizadas para una implementación a escala

Las ofertas de acelerador convergente de GPU NVIDIA y NVIDIA están diseñadas específicamente para implementarse a escala, llevando redes, seguridad y pequeñas huellas a la nube, el centro de datos y el perímetro.

Potencia optimizada para cualquier servidor

Al ofrecer las necesidades de espacio más pequeño de la cartera, la GPU NVIDIA A2 está optimizada para cargas de trabajo de inferencia e implementaciones en servidores de nivel de entrada limitados por el espacio y los requisitos térmicos, como el perímetro 5G y los entornos industriales. A2 ofrece un factor de forma de bajo perfil que opera en una carcasa de baja potencia, desde una potencia de diseño térmico (TDP) de 60W hasta 40W, lo que lo hace ideal para cualquier servidor.

GPU NVIDIA A2 Tensor Core
Acelerador convergente de NVIDIA

Computación unificada y aceleración de red

En los aceleradores convergentes de NVIDIA, la arquitectura NVIDIA Ampere y la unidad de procesamiento de datos (DPU) NVIDIA BlueField®-2 se unen para ofrecer un rendimiento sin precedentes con seguridad y redes mejoradas para cargas de trabajo con tecnología de GPU en computación perimetral, telecomunicaciones y seguridad de red. BlueField-2 combina la potencia de NVIDIA ConnectX®-6 Dx con núcleos Arm® programables y descargas de hardware para el almacenamiento, las redes, la seguridad y la gestión definidos por software. Los aceleradores convergentes de NVIDIA permiten un nuevo nivel de eficiencia y seguridad del centro de datos para cargas de trabajo aceleradas por GPU con uso intensivo de red.

Diseño de densidad optimizada

 La GPU NVIDIA A16 viene en un diseño de placa de GPU cuádruple que está optimizado para la densidad de usuarios y, combinado con el software NVIDIA Virtual PC (vPC), permite acceder a los PC virtuales ricos en gráficos desde cualquier lugar. Ofrece una mayor velocidad de fotogramas y una menor latencia del usuario final frente a VDI solo para CPU con NVIDIA A16, lo que da como resultado aplicaciones con mayor capacidad de respuesta y una experiencia de usuario casi idéntica a la de un PC nativo

GPU NVIDIA A16
Raíz de confianza de hardware

Implementaciones seguras

Las implementaciones seguras son fundamentales para las operaciones empresariales. La arquitectura NVIDIA Ampere ofrece opcionalmente un arranque seguro a través de la autenticación de código de confianza y protecciones de reversión reforzadas para proteger contra ataques de malware malicioso, lo que evita pérdidas operativas y asegura la aceleración de la carga de trabajo.

En el interior de la arquitectura NVIDIA Ampere

Explore las tecnologías de vanguardia de la arquitectura NVIDIA Ampere.