Os modelos de AI estão cada vez mais complexos à medida que enfrentam desafios de próximo nível, como a AI de conversação. Treiná-los requer enorme poder de computação e escalabilidade.
Os NVIDIA A100 Tensor Cores com Tensor Float (TF32) fornecem desempenho até 20 vezes maior sobre o NVIDIA Volta com zero alterações de código e um aumento adicional de 2 vezes com precisão mista automática e FP16. Quando combinado com o NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® e o NVIDIA Magnum IO™ SDK, é possível escalar para milhares de GPUs A100.
Uma carga de trabalho de treinamento como o BERT pode ser resolvida em escala em menos de um minuto por 2.048 GPUs A100, um recorde mundial de tempo para solução.
Para os modelos maiores com tabelas de dados massivas, como modelos de recomendação de deep learning (DLRM), a A100 80GB atinge até 1,3TB de memória unificada por nó e oferece um aumento de rendimento de até 3 vezes em relação à A100 40GB.
A liderança da NVIDIA no MLPerf estabeleceu múltiplos recordes de desempenho no benchmark de toda a indústria para treinamento de AI.