NVIDIA Blackwell 架構

推動全新產業革命的引擎 —— 現在已進入全面生產階段。

打破加速運算和生成式人工智慧面臨的阻礙

探索 NVIDIA Blackwell 架構為生成式人工智慧和加速運算帶來的突破性進展。Blackwell 立基於數代 NVIDIA 技術, 能以絕佳的效能、效率和規模,為生成式人工智慧開創全新篇章。

深入瞭解技術突破

下一代人工智慧超級晶片

Blackwell 處理器包含 2080 億個電晶體,並採用專為 NVIDIA 量身打造的台積電 4NP 製程製造。所有 Blackwell 產品都配備兩個具有光罩限制的晶粒,透過每秒 10 TB (TB/秒) 的晶片對晶片互連技術,在一個顯示卡超級晶片中,提供兩個顯示卡晶片的功能。

第二代 Transformer Engine

第二代 Transformer Engine 使用自訂的 Blackwell Tensor 核心 技術,結合 NVIDIA® TensorRT™-LLM 和 NeMo™ 框架創新技術,加速大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論和訓練。

為了大幅提升大型 MoE 模型的推論速度, Blackwell Tensor 核心 增加了新的精度,包含社群定義的微縮放格式,可提供更高的準確度,且更易於替換,獲得更高的精度。Blackwell Transformer Engine 利用稱為微張量縮放的精細縮放技術來優化效能和精確度,從而實現 4 位元浮點 (FP4) AI。這使記憶體可以支援的下一代模型的效能和大小加倍,同時保持高準確性。

安全的人工智慧

Blackwell 包含 NVIDIA 機密運算,能以強大的硬體安全防護來保護敏感資料和人工智慧模型,避免遭未經授權者存取。Blackwell 是業界第一款支援 TEE-I/O 的 GPU,同時透過 NVIDIA® NVLink® 支援 TEE-I/O 的主機和內嵌保護措施,提供最高效能的機密運算解決方案。Blackwell 機密運算的輸送量效能幾乎與加密模式並駕齊驅。企業現在除了能高效保護最大規模的模型,還能保護人工智慧的智慧財產 (IP),並安全進行機密人工智慧訓練、推論和聯合學習。

NVLink 和 NVLink Switch

若要充分發揮百萬兆級運算和兆級參數人工智慧模型的潛能,伺服器叢集內的每個 GPU 都必須達到快速、流暢的通訊。第五代 NVIDIA® NVLink® 互連技術可擴充多達 576 個 GPU,進而釋放一兆到數兆等級參數的人工智慧模型的加速效能。

NVIDIA NVLink Switch Chip 可在單一的 72-GPU NVLink 網域 (NVL72) 中,提供每秒 130 TB 的顯示卡頻寬,並可透過 NVIDIA 可擴充的分層彙總和精簡通訊協定 (SHARP)™ FP8 支援,提供 4 倍的頻寬效率。NVIDIA NVLink Switch Chip 能以每秒 1.8 TB 的驚人互連速度,支援單一伺服器以外的叢集。為了平衡增加的運算能力,具備 NVLink 的多伺服器叢集可擴充顯示卡通訊,因此與單一的八顯示卡系統相比,NVL72 可帶來 9 倍的顯示卡輸送量。

解壓縮引擎

資料分析和資料庫工作流程傳統上皆仰賴 CPU 進行運算。加速資料科學可大幅提升端對端分析的效能,加速創造價值,同時降低成本。包括 Apache Spark 在內的資料庫,在處理和分析大量數據以進行資料分析時扮演著關鍵角色。

Blackwell 配備解壓縮引擎,且可透過高速連結使用 NVIDIA Grace™ CPU 的大量記憶體,運用每秒 900 GB 的雙向頻寬。並且支援最新的壓縮格式 (如 LZ4、Snappy 和 Deflate),加速處理資料庫的完整查詢流程,實現資料分析與資料科學的最高效能。

可靠性、可用性、可維護性 (RAS) 引擎

Blackwell 透過專用的可靠性、可用性和可維護性 (RAS) 引擎,可增加智慧復原能力,及早辨認出可能發生的潛在故障,盡可能縮短停機時間。NVIDIA 具備人工智慧預測管理功能,可持續監控硬體和軟體上的數千個資料點,掌握整體健康狀況,進而預測停機時間和效率低下的原因,並預先阻止其發生作用。如此可培養智慧型的韌性,進而節省時間、能源和運算成本。

NVIDIA 的 RAS Engine 提供深入的診斷資訊,可找出須顧慮的區域並制定維護計畫。RAS 引擎可快速定位問題來源,藉此縮短周轉時間,並推動有效的補救措施,盡可能減少停機時間。

NVIDIA Blackwell 技術概要

深入瞭解為新世代生成式 AI 和加速運算提供動力的架構。