Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.
Die Tensor-Recheneinheiten des NVIDIA A100 mit Tensor Float(TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafikprozessoren möglich.
Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.
Bei den größten Modellen mit massiven Datentabellen wie Deep-Learning-Empfehlungsmodellen (Deep Learning Recommendation Models, DLRMs) erreicht der A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als der A100 40 GB.
Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungsrekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.