Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
Tensor 核心可實現混合精度運算,並可動態調整運算,在加速傳輸量的同時保持精準度,並提升安全性。最新一代的 Tensor 核心能夠以前所未見的速度,處理多樣化的人工智慧與高效能運算 (HPC) 工作。NVIDIA Tensor 核心在一兆參數生成人工智慧模型的訓練速度是過去 4 倍,在推論效能是過去的 30 倍,現代人工智慧工廠的所有工作負載皆可加速。
以 16 位元浮點 (FP16) 精度訓練數兆個參數的生成人工智慧模型可能需耗時數個月。NVIDIA Tensor 核心在將精度降低至 Transformer 引擎的 FP8、Tensor Float 32 (TF32) 以及 FP16 時,仍能大幅提升效能。由於 CUDA-X™ 函式庫可在原生深度學習框架中直接支援,所以能自動執行實作,大幅縮短訓練至整合的時間,同時維持精準度。
將使用率最大化的同時,締造低延遲度和高傳輸量,這是穩固部署推論時最重要的效能要求。NVIDIA Blackwell 架構的第二代 Transformer Engine 可提供卓越的效能,也具備加速各種多兆參數生成人工智慧模型的靈活度。
Tensor 核心讓 NVIDIA 在業界推論基準 MLPerf 中獲得了領先地位。
高效能運算是現代科學的重要支柱。為了找出更新的發現,科學家透過模擬來更加瞭解藥物開發過程的複雜分子、潛在能源來源的物理特性,以及大氣資料,以更準確預測天氣,並為極端天氣模式做好準備。NVIDIA Tensor 核心提供包含 FP64 的全方位精度,讓科學家透過所需的最高準確度,加快科學運算速度。
高效能運算 SDK 提供必要編譯器、函式庫和工具,以便在 NVIDIA 平台上開發高效能運算應用程式。
與上一代 NVIDIA Hopper™ 相比,Blackwell 架構針對 GPT-MoE-1.8T 等大規模模型提供了 30 倍的加速。第五代 Tensor Core 讓大幅度的性能提升成為可能。 Blackwell Tensor Core 增加了新的精度,包括社群定義的微縮度格式,提供更好的精度,並且易於替換成更高的精度。
隨著生成式人工智慧模型的規模和複雜性呈現爆炸性成長,提高訓練和推理效能至關重要。為了滿足這些運算需求,Blackwell Tensor Core 支援新的量化格式和精確度,包括社群定義的微縮放格式。
第二代 Transformer Engine 採用客製化 Blackwell Tensor Core 技術,結合 NVIDIA® TensorRT™-LLM 和 NeMo™ 框架創新技術,加速大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論和訓練。Transformer Engine 由 Tensor Core 的 FP4 精度驅動,使性能和效率加倍,同時保持對當前和下一代 MoE 模型的高準確度。
Transformer Engine 致力於透過即時效能來普及化當今的大型語言模型。企業可以透過部署成本上可負擔的最先進生成式人工智慧模型來優化業務流程。
自從採用 Tensor 核心技術後,NVIDIA GPU 的最佳效能提升達 60 倍,加快人工智慧和高效能運算的普及速度。NVIDIA Hopper 架構運用 FP8 技術,透過 Transformer 引擎進一步開發第四代 Tensor 核心,在一兆參數模型訓練上締造的效能是 FP16 的 6 倍。Hopper Tensor 核心結合效能提升 3 倍的 TF32、FP64、FP16 和 INT8 精度,可為所有工作負載提高速度。
完整的 NVIDIA 資料中心解決方案整合了硬體、網路、軟體、函式庫,以及 NVIDIA NGC™ 目錄上的最佳化人工智慧模型和應用程式,而 Tensor 核心則是這項完整解決方案的重要基石。這項超強的頂尖端對端人工智慧和高效能運算平台,可以讓研究人員提供可行的結果,並將解決方案大規模部署到生產環境中。
*此為初步規格,之後可能會有所變動。
了解更多關於 NVIDIA Blackwell.