La complejidad de los modelos de IA se dispara a medida que se enfrentan a desafíos de mayor nivel, como la IA conversacional. Entrenarlos requiere una enorme potencia de computación y escalabilidad.
Los núcleos Tensor Core de la NVIDIA A100 con Tensor Float (TF32) ofrecen un rendimiento hasta 20 veces mayor que el de la NVIDIA Volta, sin cambios de código y ofreciendo un impulso adicional duplicado con precisión combinada automática y FP16. Cuando se combina con NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® y el SDK de NVIDIA Magnum IO™, es posible escalar a miles de GPU A100.
Una carga de trabajo de entrenamiento como BERT puede resolverse a escala en menos de un minuto en 2048 GPU A100, lo cual constituye un récord mundial.
Para los modelos más grandes con tablas de datos enormes, como los modelos de recomendación de deep learning (DLRM), la A100 de 80 GB alcanza hasta 1,3 TB de memoria unificada por nodo y triplica el rendimiento con respecto a la A100 de 40 GB.
NVIDIA es líder en MLPerf y ha batido varios récords de rendimiento en la prueba de referencia del sector para el entrenamiento de IA.