Arquitectura NVIDIA Ampere

El corazón de los data centers elásticos y de mayor rendimiento del mundo. 

El Núcleo de la IA y la HPC en el Data Center Moderno

Resolviendo los desafíos científicos, industriales y comerciales más importantes del mundo con IA y HPC. Visualización de contenido complejo para crear productos de vanguardia, contar historias inmersivas y reimaginar las ciudades del futuro. Extraer nuevos conocimientos de conjuntos de datos masivos. La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, supera todos estos desafíos y proporciona una aceleración inigualable en todas las escalas.

Innovaciones Revolucionarias

Diseñada con 54 mil millones de transistores, la arquitectura NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande jamás construido y presenta seis innovaciones revolucionarias clave.

Tensor Cores de Tercera Generación

Introducida por primera vez en la arquitectura NVIDIA Volta™, la tecnología NVIDIA Tensor Core ha traído drásticas aceleraciones a la IA, reduciendo los tiempos de entrenamiento de semanas a horas y proporcionando una enorme aceleración a la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones al brindar nuevas precisiones, Tensor Float 32 (TF32) y punto flotante 64 (FP64), para acelerar y simplificar la adopción de IA y extender el poder de Tensor Cores a HPC.

TF32 funciona igual que FP32 mientras ofrece aceleraciones de hasta 20 veces para AI sin requerir ningún cambio de código. Con NVIDIA Automatic Mixed Precision, los investigadores pueden obtener un rendimiento 2 veces adicional con precisión mixta automática y FP16 agregando solo un par de líneas de código. Y con soporte para bfloat16, INT8 e INT4, Tensor Cores en la arquitectura NVIDIA Ampere, las GPU Tensor Core crean un acelerador increíblemente versátil tanto para el entrenamiento de IA como para la inferencia. Llevar la potencia de Tensor Cores a las GPU HPC, A100 y A30 también permite operaciones matriciales con total precisión FP64 con certificación IEEE. 

Tensor Cores de Tercera Generación
GPU de Instancias Múltiples (MIG)

GPU de Instancias Múltiples (MIG)

Todas las aplicaciones de IA y HPC pueden beneficiarse de la aceleración, pero no todas las aplicaciones necesitan el rendimiento de una GPU completa. La GPU de instancias múltiples (MIG) es una función compatible con las GPU A100 y A30 que permite que las cargas de trabajo compartan la GPU. Con MIG, cada GPU se puede dividir en múltiples instancias de GPU, completamente aisladas y aseguradas a nivel de hardware con su propia memoria de alto ancho de banda, caché y núcleos de cómputo. Ahora, los desarrolladores pueden acceder a una aceleración revolucionaria para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Y los administradores de TI pueden ofrecer una aceleración de GPU del tamaño adecuado para una utilización óptima y ampliar el acceso a todos los usuarios y aplicaciones en entornos nativos y virtualizados..

Escasez Estructural

Escasez Estructural

Las redes modernas de IA son grandes y cada vez más grandes, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para realizar predicciones e inferencias precisas, y algunos se pueden convertir a ceros para hacer que los modelos sean "dispersos" sin comprometer la precisión. Tensor Cores puede proporcionar hasta 2 veces más rendimiento para modelos dispersos. Si bien la característica de escasez beneficia más fácilmente la inferencia de IA, también se puede usar para mejorar el rendimiento del entrenamiento de modelos. 

RT Cores de Segunda Generación

Los RT Cores de segunda generación de la arquitectura NVIDIA Ampere en las GPU NVIDIA A40 ofrecen aceleraciones masivas para cargas de trabajo como la representación fotorrealista de contenido de películas, evaluaciones de diseño arquitectónico y prototipos virtuales de diseños de productos. RT Cores también acelera la representación del desenfoque de movimiento con ray tracing para obtener resultados más rápidos con mayor precisión visual y puede ejecutar simultáneamente el ray tracing con capacidades de sombreado o eliminación de ruido.

RT Cores de Segunda Generación
Memoria Más Inteligente y Rápida

Memoria Más Inteligente y Rápida

A100 trae cantidades masivas de computación a los data centers. Para mantener esos motores de cómputo en pleno uso, tiene 2 terabytes por segundo (TB/seg) de ancho de banda de memoria líder en su clase, más del doble que la generación anterior. Además, el A100 tiene significativamente más memoria en el chip, incluida una caché de nivel 2 de 40 megabytes (MB), 7 veces más grande que la generación anterior, para maximizar el rendimiento informático.

Optimizado para Escala

Las ofertas de GPU NVIDIA y acelerador convergente NVIDIA están diseñadas específicamente para implementarse a escala, brindando redes, seguridad y áreas pequeñas en el cloud, el data center y el edge.

Potencia Optimizada para Cualquier Servidor

Ofreciendo el tamaño más pequeño en la cartera, la GPU NVIDIA A2 está optimizada para cargas de trabajo de inferencia e implementaciones en servidores de nivel de entrada limitados por requisitos de espacio y térmicos, como entornos 5G en el edge e industriales. La A2 ofrece un formato de perfil bajo que funciona en un entorno de bajo consumo, desde una potencia de diseño térmico (TDP) de 60 W hasta 40 W, lo que lo hace ideal para cualquier servidor.

Potencia Optimizada para Cualquier Servidor
Aceleración de Red y Computación Unificada

Aceleración de Red y Computación Unificada

En los aceleradores convergentes NVIDIA, la arquitectura NVIDIA Ampere y la unidad de procesamiento de datos (DPU) NVIDIA BlueField®-2 se unen para brindar un rendimiento sin precedentes con seguridad mejorada y redes para cargas de trabajo impulsadas por GPU en computación en el edge, telecomunicaciones y seguridad de red. BlueField-2 combina la potencia de NVIDIA ConnectX®-6 Dx con núcleos Arm® programables y descargas de hardware para almacenamiento, redes, seguridad y administración definidos por software. Los aceleradores convergentes de NVIDIA permiten un nuevo nivel de eficiencia y seguridad del data center para cargas de trabajo intensivas en red y aceleradas por GPU.

Diseño Optimizado para Densidad

La GPU NVIDIA A16 viene con un diseño de placa de cuatro GPU optimizado para la densidad de usuarios y, combinado con el software NVIDIA Virtual PC (vPC), permite acceder a PC virtuales con muchos gráficos desde cualquier lugar. Ofrece una mayor velocidad de fotogramas y una menor latencia para el usuario final en comparación con VDI solo de CPU con NVIDIA A16, lo que da como resultado aplicaciones con mayor capacidad de respuesta y una experiencia de usuario que no se puede distinguir de una PC nativa.

Diseño Optimizado para Densidad
Implementaciones Seguras

Implementaciones Seguras

Las implantaciones seguras son fundamentales para las operaciones empresariales. La arquitectura NVIDIA Ampere ofrece opcionalmente un boot seguro a través de la autenticación de código de confianza y protecciones de rollback reforzadas para proteger contra ataques de malware malicioso, evitando pérdidas operativas y garantizando la aceleración de la carga de trabajo.

 

Dentro de la Arquitectura NVIDIA Ampere

Explora las tecnologías de vanguardia de la arquitectura NVIDIA Ampere.