Tensor 核心可實現混合精度運算,並可動態調整運算,在加速傳輸量的同時保持精準度,並提升安全性。最新一代的 Tensor 核心能夠以前所未見的速度,處理多樣化的人工智慧與高效能運算 (HPC) 工作。NVIDIA Tensor 核心在一兆參數生成人工智慧模型的訓練速度是過去 4 倍,在推論效能是過去的 30 倍,現代人工智慧工廠的所有工作負載皆可加速。
與上一代 NVIDIA Hopper™ 相比,Blackwell 架構針對 GPT-MoE-1.8T 等大規模模型提供了 30 倍的加速。第五代 Tensor Core 讓大幅度的性能提升成為可能。 Blackwell Tensor Core 增加了新的精度,包括社群定義的微縮度格式,提供更好的精度,並且易於替換成更高的精度。
隨著生成式人工智慧模型的規模和複雜性呈現爆炸性成長,提高訓練和推理效能至關重要。為了滿足這些運算需求,Blackwell Tensor Core 支援新的量化格式和精確度,包括社群定義的微縮放格式。
自從採用 Tensor 核心技術後,NVIDIA GPU 的最佳效能提升達 60 倍,加快人工智慧和高效能運算的普及速度。NVIDIA Hopper 架構運用 FP8 技術,透過 Transformer 引擎進一步開發第四代 Tensor 核心,在一兆參數模型訓練上締造的效能是 FP16 的 6 倍。Hopper Tensor 核心結合效能提升 3 倍的 TF32、FP64、FP16 和 INT8 精度,可為所有工作負載提高速度。
完整的 NVIDIA 資料中心解決方案整合了硬體、網路、軟體、函式庫,以及 NVIDIA NGC™ 目錄上的最佳化人工智慧模型和應用程式,而 Tensor 核心則是這項完整解決方案的重要基石。這項超強的頂尖端對端人工智慧和高效能運算平台,可以讓研究人員提供可行的結果,並將解決方案大規模部署到生產環境中。
Blackwell | Hopper | |
---|---|---|
支援的 Tensor 核心精度 | FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 | FP64, TF32, BF16, FP16, FP8, INT8 |
支援的 CUDA® 核心精度 | FP64, FP32, FP16, BF16 | FP64, FP32, FP16, BF16, INT8 |
*此為初步規格,之後可能會有所變動。
了解更多關於 NVIDIA Blackwell.