This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

Gpu NVIDIA A100 Tensor Core

Aceleración sin precedentes en todas las escalas

Acelerando el Trabajo Más Importante de Nuestro Tiempo

La GPU NVIDIA A100 Tensor Core ofrece una aceleración sin precedentes en todas las escalas para impulsar los data centers elásticos de mayor rendimiento del mundo para inteligencia artificial, análisis de datos y HPC. Desarrollado por la arquitectura NVIDIA Ampere, la A100 es el motor de la plataforma del data center NVIDIA. La A100 proporciona un rendimiento hasta 20 veces mayor que la generación anterior y se puede dividir en hasta siete instancias de GPU para ajustarse dinámicamente a las demandas cambiantes. Disponible en versiones de memoria de 40GB y 80GB, A100 80GB presenta el ancho de banda de memoria más rápido del mundo a más de 2 terabytes por segundo (TB/s) para ejecutar los modelos y conjuntos de datos más grandes.

Datasheet NVIDIA A100 (PDF 612 KB)

Resumen del Producto A100 80GB PCIe (PDF 380 KB)

Resumen del Producto A100 40GB PCIe (PDF 332 KB)

Software para IA Listo para Empresas

La plataforma NVIDIA EGX™ incluye software optimizado que ofrece computación acelerada en toda la infraestructura. Con NVIDIA AI Enterprise, las empresas pueden acceder a un conjunto de software de análisis de datos e inteligencia artificial nativo del cloud de un extremo a otro que está optimizado, certificado y respaldado por NVIDIA para ejecutarse en VMware vSphere con los Sistemas Certificados por NVIDIA. NVIDIA AI Enterprise incluye tecnologías habilitadoras clave de NVIDIA para una rápida implementación, gestión y escalado de cargas de trabajo de IA en la cloud híbrida moderna.

Más Información

La Plataforma de Data Center de IA y HPC de Extremo a Extremo Más Potente

A100 es parte de la solución completa del data center de NVIDIA que incorpora bloques de construcción en hardware, redes, software, bibliotecas y aplicaciones y modelos de IA optimizados de NGC^™. Representando la plataforma de IA y HPC de extremo a extremo más potente para data centers, permite a los investigadores entregar resultados del mundo real e implementar soluciones en la producción a escala.

Making of Ampere Video

WATCH VIDEO

Entrenamiento De Deep Learning

Rendimiento Hasta 3 Veces Mayor en Modelos Grandes

Capacitación DLRM

Entrenamiento de IA Hasta 3 Veces Superior en los Modelos Más Grandes

DLRM en el framework HugeCTR, precisión = FP16 | Tamaño de lote de NVIDIA A100 de 80GB = 48 | NVIDIA A100 40GB de tamaño de lote = 32 | Tamaño de lote de NVIDIA V100 de 32GB = 32.

Los modelos de IA son cada vez más complejos a medida que se enfrentan a desafíos de siguiente nivel, como la IA conversacional. Entrenarlos requiere una enorme potencia informática y escalabilidad.

Los NVIDIA A100 Tensor Cores con Tensor Float (TF32) proporcionan hasta 20 veces el rendimiento que NVIDIA Volta con cero cambios de código y un impulso adicional 2 veces con precisión mixta automática y FP16. Cuando se combina con NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® Mellanox^® InfiniBand^® y NVIDIA Magnum IO^™ SDK, es posible escalar a miles de GPU A100.

Una carga de trabajo de capacitación como BERT se puede resolver para escalar en menos de un minuto con 2.048 GPU A100, un tiempo récord mundial para resolver.

Para modelos más grandes con tablas de datos masivas, como los modelos de recomendación de aprendizaje profundo (DLRM), el A100 80GB alcanza hasta 1.3TB de memoria unificada por nodo y ofrece un aumento de rendimiento hasta 3 veces mayor que el A100 40GB.

El liderazgo de NVIDIA en MLPerf ha establecido múltiples récords de rendimiento en el punto de referencia de la industria para la capacitación en inteligencia artificial.

Más Información Sobre A100 Para Entrenamiento

Inferencia Del Deep Learning

A A100 apresenta recursos inovadores para otimizar as cargas de trabalho de inferência. Ela acelera uma gama completa de precisões, do FP32 ao INT4. A tecnologia GPU Multi-Instâncias (MIG) permite que várias redes operem simultaneamente em uma única GPU A100 para utilização otimizada dos recursos de computação. E o suporte à escassez estrutural oferece até 2 vezes mais desempenho, além dos outros ganhos de desempenho de inferência do A100.

Em modelos de conversação de AI de última geração, como o BERT, a A100 acelera a taxa de transferência de inferência em até 249 vezes sobre as CPUs.

Nos modelos mais complexos com tamanho de lote restrito, como o RNN-T para reconhecimento automático de fala, a capacidade de memória ampliada da A100 80GB dobra o tamanho de cada MIG e oferece uma taxa de transferência até 1,25 vezes maior em relação à A100 40GB.

O desempenho líder de mercado da NVIDIA foi demonstrado na Inferência do MLPerf. A A100 traz 20 vezes mais desempenho para ampliar ainda mais essa liderança.

Más Información Sobre La A100 Para Inferencia

Rendimiento de Inferencia de IA Hasta 249 Veces Mayor que las CPU

Inferencia BERT-LARGE

Inferencia BERT-Large | Solo CPU: Xeon Gold 6240 a 2,60 GHz, precisión = FP32, tamaño de lote = 128 | V100: NVIDIA TensorRT ™ (TRT) 7.2, precisión = INT8, tamaño de lote = 256 | A100 40GB y 80GB, tamaño de lote = 256, precisión = INT8 con escasez.

Rendimiento de Inferencia de IA Hasta 1,25 Veces Superior a A100 40GB

Inferencia RNN-T: Flujo Único

MLPerf 0.7 RNN-T medido con (1/7) cortes MIG. Framework: TensorRT 7.2, conjunto de datos = LibriSpeech, precisión = FP16.

Computación de Alto Rendimiento

Para desbloquear los descubrimientos de la próxima generación, los científicos buscan simulaciones para comprender mejor el mundo que nos rodea.

La NVIDIA A100 cuenta con Tensor Cores de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. Combinado con 80GB de la memoria GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de cuatro horas en el A100. Las aplicaciones HPC también pueden aprovechar el TF32 para lograr hasta 11 veces el rendimiento para operaciones densas de multiplicación de matrices de precisión simple.

Para las aplicaciones de HPC con los conjuntos de datos más grandes, la memoria adicional de 80GB del A100 ofrece un aumento de hasta 2 veces en el rendimiento con Quantum Espresso, una simulación de materiales. Esta memoria masiva y un ancho de banda de memoria sin precedentes hacen del A100 80GB la plataforma ideal para cargas de trabajo de próxima generación.

Revise el Rendimiento Más Reciente de GPU en Aplicaciones de HPC

11 Veces Más Rendimiento de HPC en Cuatro Años

Principales Aplicaciones de HPC

Media geométrica de aceleraciones de la aplicación frente a P100: Aplicación de referencia: Ámbar [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64: 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Nodo de GPU con CPU de dos sockets con 4x NVIDIA P100, V100, o GPU A100.

Rendimiento Hasta 1,8 Veces Mayor para Aplicaciones HPC

Quantum Espresso

Quantum Espresso medido con el conjunto de datos CNT10POR8, precisión = FP64.

Análisis De Datos De Alto Rendimiento

2 Veces Más Rápido que el A100 de 40GB en el Análisis Comparativo de Big Data

Benchmark de análisis de Big Data | 30 consultas minoristas analíticas, ETL, ML, NLP en un conjunto de datos de 10 TB | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 de 32 GB, RAPIDS / Dask | A100 de 40 GB y A100 de 80 GB, RAPIDS / Dask / BlazingSQL

Los científicos de datos deben poder analizar, visualizar y convertir grandes conjuntos de datos en conocimientos. Pero las soluciones de escalamiento horizontal a menudo se atascan con conjuntos de datos distribuidos en varios servidores.

Los servidores acelerados con el A100 brindan la potencia de computación necesaria, junto con una memoria masiva, más de 2TB/s de ancho de banda de memoria y escalabilidad con NVIDIA^® NVLink^® y NVSwitch^™ y NVSwitch™ para manejar estas cargas de trabajo. Combinada con InfiniBand, NVIDIA Magnum IO^™ y el conjunto de bibliotecas de código abierto RAPIDS^™, incluido el acelerador RAPIDS para Apache Spark para análisis de datos acelerado por GPU, la plataforma de data center de NVIDIA acelera estas grandes cargas de trabajo a niveles de rendimiento y eficiencia sin precedentes.

En un punto de referencia de análisis de big data, el A100 80GB proporcionó información al doble del rendimiento del A100 40GB, lo que lo hace ideal para cargas de trabajo emergentes con tamaños de conjuntos de datos en expansión.

Más Información Sobre El Análisis De Datos

Utilización Lista Para Empresas

7 Veces Mayor Rendimiento de Inferencia con GPU de Multi-Instancias (MIG)

Gran Inferencia BERT

Gran Inferencia BERT | NVIDIA TensorRT^™ (TRT) 7.1 | GPU NVIDIA T4 Tensor Core: TRT 7.1, precisión = INT8, tamaño de lote = 256 | V100: TRT 7.1, precisión = FP16, tamaño de lote = 256 | A100 con 1 o 7 instancias MIG de 1g.5gb: tamaño de lote = 94, precisión = INT8 con escasez.

A100 con MIG maximiza la utilización de la infraestructura acelerada por GPU. Con MIG, una GPU A100 se puede dividir en hasta siete instancias independientes, lo que brinda a varios usuarios acceso a la aceleración de la GPU. Con A100 40GB, cada instancia MIG se puede asignar hasta 5GB, y con la capacidad de memoria aumentada del A100 80GB, ese tamaño se duplica a 10GB.

MIG trabaja con Kubernetes, contenedores y virtualización de servidores basada en hipervisores. MIG permite a los administradores de infraestructura ofrecer una GPU del tamaño adecuado con calidad de servicio (QoS) garantizada para cada trabajo, extendiendo el alcance de los recursos informáticos acelerados a cada usuario.

Más Información Sobre Mig

Aproveche al Máximo Sus Sistemas

Un sistema certificado por NVIDIA, que consta de A100 y NVIDIA Mellanox SmartnNIC y DPU, está validado para rendimiento, funcionalidad, escalabilidad y seguridad, lo que permite a las empresas implementar fácilmente soluciones completas para cargas de trabajo de IA del catálogo NVIDIA NGC.

Más Información

Gpu Del Data Center

NVIDIA A100 para HGX

Máximo rendimiento para todas las cargas de trabajo.

NVIDIA A100 para PCIe

Máxima versatilidad para todas las cargas de trabajo.

Especificaciones

	A100 40GB PCIe	A100 80GB PCIe	A100 40GB SXM	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
Memoria de GPU	40GB HBM2	80GB HBM2e	40GB HBM2	80GB HBM2e
Ancho de Banda de Memoria de GPU	1,555GB/s	1,935GB/s	1,555GB/s	2,039GB/s
Potencia Máxima de Diseño Térmico (TDP)	250W	300W	400W	400W
GPU de Multi Instancia	Hasta 7 MIGs @ 5GB	Hasta 7 MIGs @ 10GB	Hasta 7 MIGs @ 5GB	Hasta 7 MIGs @ 10GB
Formato	PCIe		SXM
Interconexiónt	NVIDIA^® NVLink^® Bridge para 2 GPUs: 600GB/s ** PCIe Gen4: 64GB/s		NVLink: 600GB/s PCIe Gen4: 64GB/s
Opciones de Servidor	Socios y Sistemas Certificados por NVIDIA^™ con 1-8 GPU		Socio de NVIDIA HGX^™ A100 y Sistemas Certificados por NVIDIA con 4, 8 o 16 GPU NVIDIA DGX^™ A100 con 8 GPU

* Con escasez
** GPU SXM4 a través de placas de servidor HGX A100; GPU PCIe a través de NVLink Bridge para hasta dos GPU

Consulte las Versiones más Recientes de MPerf Behcnmark

Ver Resultados

Dentro de la Arquitectura NVIDIA Ampere

Descubra las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.

Leer Whitepaper