NVIDIA Tensor 核心技術最先運用在 NVIDIA Volta™ 架構上,不只大幅加速人工智慧,也將訓練時間從數週降至數小時,同時顯著提升推論速度。NVIDIA Ampere 架構以這些創新技術為基礎,採用全新精度標準 Tensor Float 32 (TF32) 與 64 位元浮點 (FP64),以加速並簡化人工智慧應用,同時將 Tensor 核心效能拓展至高效能運算。
TF32 與 FP32 運作方式相同,無需更改任何程式碼即可將人工智慧速度提升至最高 20 倍。透過 NVIDIA 自動混合精度,研究人員只要多加幾行程式碼,就可以利用自動混合精度和 FP16 將效能提升 2 倍。而 NVIDIA Ampere 架構 Tensor 核心 GPU 中的 Tensor 核心透過支援 bfloat16、INT8 與 INT4,能為人工智慧訓練和推論創造極致多元的加速器。A100 和 A30 GPU 不只將強大的 Tensor 核心導入高效能運算,也支援完整矩陣運算、通過 IEEE 認證,並使用 FP64 精度。