This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

GPU NVIDIA A100 con Tensor Core

Aceleración sin precedentes a todos los niveles

Acelerar el trabajo más importante de nuestro tiempo

La GPU NVIDIA A100 con Tensor Core ofrece una aceleración sin precedentes a todos los niveles para proporcionar IA, análisis de datos y HPC a los centros de datos elásticos de mayor rendimiento del mundo. La A100, con la tecnología de la arquitectura NVIDIA Ampere, es el motor de la plataforma de centros de datos de NVIDIA. La A100 ofrece un rendimiento hasta 20 veces mayor que la generación anterior y puede dividirse en siete instancias de GPU para ajustarse dinámicamente a las demandas de cambio. La A100 de 80 GB ofrece por primera vez el ancho de banda de memoria más rápido del mundo, a más de 2 terabytes por segundo (TB/s), para ejecutar los más grandes modelos y conjuntos de datos.

Leer la ficha técnica de NVIDIA A100 (PDF 640 KB)

Leer el resumen de producto de NVIDIA A100 PCIe de 80 GB (PDF 380 KB)

Leer el resumen de producto de NVIDIA A100 PCIe de 40 GB (PDF 332 KB)

Software de IA específico para empresas

La plataforma NVIDIA EGX^™ incluye software optimizado que ofrece computación acelerada en toda la infraestructura. Con NVIDIA AI Enterprise, las empresas pueden acceder a un conjunto integral nativo en la nube de software de IA y análisis de datos optimizado, certificado y compatible con NVIDIA para su ejecución en VMware vSphere con sistemas certificados por NVIDIA. NVIDIA AI Enterprise incluye tecnologías de habilitación clave de NVIDIA para la implementación, la gestión y el escalado rápidos de cargas de trabajo de IA en la nube híbrida moderna.

Más información

La plataforma integral de centros de datos de HPC e IA más potente hasta la fecha

La A100 forma parte de la completa solución de centro de datos de NVIDIA, que incorpora elementos esenciales para hardware, redes, software, bibliotecas, y modelos y aplicaciones de IA optimizados desde NGC^™. Como representante de la plataforma de IA y HPC integral para centros de datos más potente que existe, permite a los investigadores ofrecer resultados en el mundo real e implementar soluciones en producción a escala.

Vídeo de cómo se hizo Ampere

VER EL VÍDEO

Entrenamiento de Deep Learning

Entrenamiento de IA hasta 3 veces superior en los modelos más grandes

Entrenamiento de DLRM

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

La complejidad de los modelos de IA se dispara a medida que se enfrentan a desafíos de mayor nivel, como la IA conversacional. Entrenarlos requiere una enorme potencia de computación y escalabilidad.

Los núcleos Tensor Core de la NVIDIA A100 con Tensor Float (TF32) ofrecen un rendimiento hasta 20 veces mayor que el de la NVIDIA Volta, sin cambios de código y ofreciendo un impulso adicional duplicado con precisión combinada automática y FP16. Cuando se combina con NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® Mellanox^® InfiniBand^® y el SDK de NVIDIA Magnum IO^™, es posible escalar a miles de GPU A100.

Una carga de trabajo de entrenamiento como BERT puede resolverse a escala en menos de un minuto en 2048 GPU A100, lo cual constituye un récord mundial.

Para los modelos más grandes con tablas de datos enormes, como los modelos de recomendación de deep learning (DLRM), la A100 de 80 GB alcanza hasta 1,3 TB de memoria unificada por nodo y triplica el rendimiento con respecto a la A100 de 40 GB.

NVIDIA es líder en MLPerf y ha batido varios récords de rendimiento en la prueba de referencia del sector para el entrenamiento de IA.

Más información sobre la A100 para entrenamiento

Inferencia de Deep Learning

La A100 presenta innovadoras características que permiten optimizar las cargas de trabajo de inferencia. Acelera una gama completa de precisión, desde FP32 hasta INT4. La tecnología GPU multiinstancia (MIG) permite que varias redes funcionen simultáneamente en una única A100. De este modo se optimizan los recursos de computación. Además, el soporte de dispersión estructural ofrece hasta el doble de rendimiento, junto con las otras mejoras de rendimiento de inferencia de la A100.

En modelos de IA conversacional de última generación como BERT, la A100 acelera el rendimiento de la inferencia hasta 249 veces en comparación con las CPU.

En los modelos más complejos con tamaño de lote restringido como RNN-T para el reconocimiento de voz automático, la mayor capacidad de memoria de la A100 de 80 GB duplica el tamaño de cada MIG y ofrece un rendimiento hasta 1,25 veces superior en comparación con la A100 de 40 GB.

El rendimiento líder en el mercado de NVIDIA ha quedado demostrado en la inferencia de MLPerf. La A100 aporta 20 veces más rendimiento para ampliar aún más ese liderazgo.

Más información sobre la A100 para inferencia

Rendimiento de la inferencia de IA hasta 249 veces mayor
en comparación con las CPU

Inferencia GRANDE de BERT

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT^™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 con dispersión.

Rendimiento de la inferencia de IA hasta 1,25 veces mayor
en comparación con la A100 de 40 GB

Inferencia RNN-T: flujo único

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

Computación de alto rendimiento

A fin de poder hacer los descubrimientos de la próxima generación, los científicos buscan simulaciones que les permitan comprender mejor el mundo que nos rodea.

NVIDIA A100 presenta los núcleos Tensor Core de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. En combinación con los 80 GB de la memoria de GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de 4 con la A100. Las aplicaciones de HPC también pueden aprovechar TF32 para lograr hasta 11 veces más rendimiento en operaciones de multiplicación de matrices densas de precisión simple.

Para las aplicaciones de HPC con los conjuntos de datos más grandes, la memoria adicional de la A100 de 80 GB duplica el rendimiento con Quantum Espresso, una simulación de materiales. Esta memoria inmensa y este ancho de banda de memoria sin precedentes hacen de la A100 de 80 GB la plataforma ideal para las cargas de trabajo de la próxima generación.

Más información sobre la A100 para HPC

11 veces más rendimiento de HPC en cuatro años

Las mejores aplicaciones de HPC

Media geométrica de aceleraciones de aplicaciones frente a P100: aplicación de referencia: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160.000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Nodo GPU con CPU de doble zócalo con 4 GPU NVIDIA P100, V100 o A100.

Rendimiento hasta 1,8 veces superior para aplicaciones de HPC

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

Análisis de datos de alto rendimiento

Hasta 83 veces más rápida que las CPU y el doble de rápida que la A100 de 40 GB en pruebas de referencia de análisis de big data

Hasta 83 veces más rápida que las CPU y el doble de rápida que A100 de 40 GB en pruebas de referencia de análisis de big data

Prueba de referencia de análisis de big data | 30 consultas de análisis del sector minorista, ETL, ML, NLP en un conjunto de datos de 10 TB | CPU: Intel Xeon Gold 6252 a 2,10 GHz, Hadoop | V100 de 32 GB, RAPIDS/Dask | A100 de 40 GB y A100 de 80 GB, RAPIDS/Dask/BlazingSQL

Los científicos de datos deben poder analizar, visualizar y convertir conjuntos de datos de gran tamaño en información. Sin embargo, las soluciones de escalado horizontal a menudo se detienen a medida que estos conjuntos de datos se dispersan en varios servidores.

Los servidores acelerados con la A100 ofrecen la potencia de computación necesaria, junto con una memoria masiva, 2 TB/s de ancho de banda de memoria y escalabilidad con NVIDIA^® NVLink^® y NVSwitch^™ para hacer frente a estas cargas de trabajo. En combinación con InfiniBand, NVIDIA Magnum IO^™ y las bibliotecas de código abierto del paquete RAPIDS^™, como el acelerador de RAPIDS para Apache Spark para el análisis de datos acelerado por GPU, la plataforma de centro de datos de NVIDIA acelera estas enormes cargas de trabajo a niveles de rendimiento y eficacia sin precedentes.

En una prueba de referencia de análisis de big data, la A100 de 80 GB ofreció información con un rendimiento 83 veces mayor que las CPU y el doble de rendimiento que la A100 de 40 GB, lo que la convierte en una solución idónea para cargas de trabajo emergentes con tamaños de conjuntos de datos cada vez mayores.

Más información sobre el análisis de datos

Utilización preparada para la empresa

7 veces mayor rendimiento de inferencia con GPU multiinstancia (MIG)

Inferencia grande de BERT

Inferencia grande de BERT | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 con dispersión.

La A100 con MIG maximiza la utilización de las infraestructuras aceleradas por GPU. Con MIG, una GPU A100 se puede dividir en hasta siete instancias independientes, lo que hace posible que varios usuarios accedan a la aceleración de dicha GPU. Con la A100 de 40 GB, se pueden asignar hasta 5 GB a cada instancia de MIG. Con la mayor capacidad de memoria de la A100 de 80 GB, ese tamaño se duplica hasta los 10 GB.

MIG funciona con Kubernetes, contenedores y virtualización de servidores basada en hipervisor. MIG permite a los administradores de infraestructuras ofrecer una GPU con el tamaño adecuado y calidad de servicio (QoS) garantizada para cada tarea, lo que amplía el alcance de los recursos de computación acelerados a todos los usuarios.

Más información sobre MIG

Sacar el máximo partido a los sistemas

Un sistema certificado por NVIDIA, formado por la A100 y por Mellanox SmartNIC y DPU de NVIDIA, está validado para su rendimiento, funcionalidad, escalabilidad y seguridad, lo que permite a las empresas implementar fácilmente soluciones completas para las cargas de trabajo de la IA desde el catálogo de NVIDIA NGC.

Más información

GPU para centros de datos

NVIDIA A100 para HGX

Rendimiento definitivo para todas las cargas de trabajo.

NVIDIA A100 para PCIe

Máxima versatilidad para todas las cargas de trabajo.

Especificaciones

	A100 80 GB PCIe	A100 80 GB SXM
FP64	9,7 TFLOPS
Tensor Core de FP64	19,5 TFLOPS
FP32	19,5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
Tensor Core de BFLOAT16	312 TFLOPS \| 624 TFLOPS*
Tensor Core de FP16	312 TFLOPS \| 624 TFLOPS*
Tensor Core de INT8	624 TOPS \| 1248 TOPS*
Memoria de la GPU	80 GB de HBM2e	80 GB de HBM2e
Ancho de banda de memoria de la GPU	1935 GB/s	2039 GB/s
Potencia máxima de diseño térmico (TDP)	300 W	400 W ***
GPU multiinstancia	Hasta 7 MIG a 10 GB	Hasta 7 MIG a 10 GB
Formato	PCIe Refrigeración por aire de dos ranuras o refrigeración por líquido de una sola ranura	SXM
Interconexión	NVIDIA^® NVLink^® Bridge para 2 GPU: 600 GB/s ** PCIe Gen4: 64 GB/s	NVLink: 600 GB/s PCIe Gen4: 64 GB/s
Opciones del servidor	Partners y NVIDIA-Certified Systems™ con entre 1 y 8 GPU	Sistemas certificados por NVIDIA y partners de NVIDIA HGX™ H100 con 4,8 o 16 GPU NVIDIA DGX™ H100 con 8 GPU

* Con dispersión
** GPU SXM4 a través de placas de servidores HGX A100; GPU PCIe a través de NVLink Bridge para hasta 2 GPU
*** TDP de 400 W para la configuración estándar. La SKU HGX A100 de 80 GB de solución térmica personalizada (CTS) puede admitir TDP de hasta 500 W

Consultar los datos más recientes de pruebas de referencia de MLPerf

Ver resultados

El interior de la arquitectura NVIDIA Ampere

Conoce las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.

Leer el informe técnico