隨著人工智慧模型處理更高一級的挑戰 (如對話式人工智慧),其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。
若使用精度為 Tensor Float (TF32) 的 NVIDIA A100 Tensor 核心,可在完全不變更程式碼的情況下,提供比 NVIDIA Volta 高 20 倍的效能,若使用自動混合精度和 FP16,還可進一步提高 2 倍。與 NVIDIA® NVLink®、NVIDIA NVSwitch™、第四代 PCI、NVIDIA® InfiniBand® 和 NVIDIA Magnum IO™ SDK 搭配使用時,還可以擴充到使用數千個 A100 GPU。
像是 BERT 這類的訓練工作負載,可在一分鐘內以 2,048 個 A100 GPU 大規模處理,創下全球獲得解決方案的最短時間記錄。
對於具有大型資料表格的最大模型,如用於推薦系統的深度學習建議模型 (DLRM),A100 80 GB 每個節點最多可達到 1.3 TB 的整合記憶體,並提供比 A100 40 GB 多達 3 倍的輸送量。
MLPerf 在人工智慧訓練業界級的基準測試中,創下多項效能記錄,完整體現 NVIDIA 的業界領先地位。