Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
推動全新產業革命的引擎 —— 現在已進入全面生產階段。
探索 NVIDIA Blackwell 架構為生成式人工智慧和加速運算帶來的突破性進展。Blackwell 立基於數代 NVIDIA 技術, 能以絕佳的效能、效率和規模,為生成式人工智慧開創全新篇章。
Blackwell 處理器包含 2080 億個電晶體,並採用專為 NVIDIA 量身打造的台積電 4NP 製程製造。所有 Blackwell 產品都配備兩個具有光罩限制的晶粒,透過每秒 10 TB (TB/秒) 的晶片對晶片互連技術,在一個顯示卡超級晶片中,提供兩個顯示卡晶片的功能。
第二代 Transformer Engine 使用自訂的 Blackwell Tensor 核心 技術,結合 NVIDIA® TensorRT™-LLM 和 NeMo™ 框架創新技術,加速大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論和訓練。
為了大幅提升大型 MoE 模型的推論速度, Blackwell Tensor 核心 增加了新的精度,包含社群定義的微縮放格式,可提供更高的準確度,且更易於替換,獲得更高的精度。Blackwell Transformer Engine 利用稱為微張量縮放的精細縮放技術來優化效能和精確度,從而實現 4 位元浮點 (FP4) AI。這使記憶體可以支援的下一代模型的效能和大小加倍,同時保持高準確性。
Blackwell 包含 NVIDIA 機密運算,能以強大的硬體安全防護來保護敏感資料和人工智慧模型,避免遭未經授權者存取。Blackwell 是業界第一款支援 TEE-I/O 的 GPU,同時透過 NVIDIA® NVLink® 支援 TEE-I/O 的主機和內嵌保護措施,提供最高效能的機密運算解決方案。Blackwell 機密運算的輸送量效能幾乎與加密模式並駕齊驅。企業現在除了能高效保護最大規模的模型,還能保護人工智慧的智慧財產 (IP),並安全進行機密人工智慧訓練、推論和聯合學習。
若要充分發揮百萬兆級運算和兆級參數人工智慧模型的潛能,伺服器叢集內的每個 GPU 都必須達到快速、流暢的通訊。第五代 NVIDIA® NVLink® 互連技術可擴充多達 576 個 GPU,進而釋放一兆到數兆等級參數的人工智慧模型的加速效能。
NVIDIA NVLink Switch Chip 可在單一的 72-GPU NVLink 網域 (NVL72) 中,提供每秒 130 TB 的顯示卡頻寬,並可透過 NVIDIA 可擴充的分層彙總和精簡通訊協定 (SHARP)™ FP8 支援,提供 4 倍的頻寬效率。NVIDIA NVLink Switch Chip 能以每秒 1.8 TB 的驚人互連速度,支援單一伺服器以外的叢集。為了平衡增加的運算能力,具備 NVLink 的多伺服器叢集可擴充顯示卡通訊,因此與單一的八顯示卡系統相比,NVL72 可帶來 9 倍的顯示卡輸送量。
資料分析和資料庫工作流程傳統上皆仰賴 CPU 進行運算。加速資料科學可大幅提升端對端分析的效能,加速創造價值,同時降低成本。包括 Apache Spark 在內的資料庫,在處理和分析大量數據以進行資料分析時扮演著關鍵角色。
Blackwell 配備解壓縮引擎,且可透過高速連結使用 NVIDIA Grace™ CPU 的大量記憶體,運用每秒 900 GB 的雙向頻寬。並且支援最新的壓縮格式 (如 LZ4、Snappy 和 Deflate),加速處理資料庫的完整查詢流程,實現資料分析與資料科學的最高效能。
Blackwell 透過專用的可靠性、可用性和可維護性 (RAS) 引擎,可增加智慧復原能力,及早辨認出可能發生的潛在故障,盡可能縮短停機時間。NVIDIA 具備人工智慧預測管理功能,可持續監控硬體和軟體上的數千個資料點,掌握整體健康狀況,進而預測停機時間和效率低下的原因,並預先阻止其發生作用。如此可培養智慧型的韌性,進而節省時間、能源和運算成本。
NVIDIA 的 RAS Engine 提供深入的診斷資訊,可找出須顧慮的區域並制定維護計畫。RAS 引擎可快速定位問題來源,藉此縮短周轉時間,並推動有效的補救措施,盡可能減少停機時間。
深入瞭解為新世代生成式 AI 和加速運算提供動力的架構。