NVIDIA A100 Tensor  核心 GPU

為各種規模的作業提供前所未有的加速能力

加速現今最重要的工作

NVIDIA A100 Tensor Core GPU 可在各種規模中提供前所未有的加速能力,為全球效能最強的資料中心提供 AI、資料分析及高效能運算 (HPC)等強大運算能力 。A100 採用 NVIDIA Ampere 架構,是 NVIDIA 資料中心平台的核心動能。A100 的效能比前一代高出 20 倍,並可分割為 7 個 GPU 執行個體,以動態調整滿足不斷變化的需求。A100 80GB 具有全球最快的記憶體頻寬,每秒超過 2 TB(TB/s),可執行最大的模型與資料集。

適用於人工智慧的企業級軟體

NVIDIA EGX™ 平台內含的最佳化軟體能在基礎架構中提供加速運算。透過 NVIDIA AI Enterprise,企業可以使用人工智慧與資料分析軟體的端對端雲端原生套件,該軟體經由 NVIDIA 最佳化、認證和支援,可在使用 NVIDIA 認證系統™ 的 VMware vSphere 上執行;NVIDIA AI Enterprise 內含 NVIDIA 的關鍵致能技術,能在現代混合雲端中快速部署、管理及調整人工智慧工作負載。

最強大的端對端人工智慧和高效能運算資料中心平台

A100 是 NVIDIA 資料中心的一部份,完整的解決方案包含硬體、網路、軟體、函式庫的建置組塊,以及 NGC 上的最佳化人工智慧模型和應用程式。其代表最強大的資料中心端對端人工智慧和高效能運算平台,讓研究人員能快速產出實際成果,並將解決方案大規模部署到生產環境中。

 

Ampere 製作過程影片

深度學習訓練

在最大模型上進行高達 3 倍的人工智慧訓練

DLRM 訓練

在最大模型上進行高達 3 倍的人工智慧訓練

隨著人工智慧模型處理更高一級的挑戰 (如對話式人工智慧),其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。

若使用精度為 Tensor Float (TF32) 的 NVIDIA A100 Tensor 核心,可在完全不變更程式碼的情況下,提供比 NVIDIA Volta 高 20 倍的效能,若使用自動混合精度和 FP16,還可進一步提高 2 倍。與 NVIDIA® NVLink®、NVIDIA NVSwitch、第四代 PCI、NVIDIA® InfiniBand®NVIDIA Magnum IO SDK 搭配使用時,還可以擴充到使用數千個 A100 GPU。

像是 BERT 這類的訓練工作負載,可在一分鐘內以 2,048 個 A100 GPU 大規模處理,創下全球獲得解決方案的最短時間記錄。

對於具有大型資料表格的最大模型,如用於推薦系統的深度學習建議模型 (DLRM),A100 80 GB 每個節點最多可達到 1.3 TB 的整合記憶體,並提供比 A100 40 GB 多達 3 倍的輸送量。

MLPerf 在人工智慧訓練業界級的基準測試中,創下多項效能記錄,完整體現 NVIDIA 的業界領先地位。

深度學習推論

A100 帶來創新功能以最佳化推論工作負載。從 FP32 到 INT4,加速整個精度範圍。多執行個體 GPU (MIG) 技術可讓多個網路在單一 A100 上同時運作,以最佳方式使用運算資源。除了 A100 提升的其他推論效能以外,支援結構化稀疏可提供高達 2 倍的效能。

在 BERT 等先進對話式人工智慧模型中,A100 可加速的推論輸送量是 CPU 的 249 倍。

在批次大小受到限制的高度複雜模型 (如 RNN-T) 中,為了提供自動語音辨識功能,A100 80 GB 增加的記憶體容量會將每個 MIG 的大小加倍,並提供比 A100 40 GB 高 1.25 倍的輸送量。

NVIDIA 領先業界的效能已在 MLPerf 推論中得到證實。A100 提供的 20 倍效能將進一步擴大 NVIDIA 的領先地位。

與 CPU 相比,
人工智慧推論效能提升多達 249 倍

BERT 大型推論

與 CPU 相比,人工智慧推論效能提升多達 249 倍

與 A100 40 GB 相比,
人工智慧推論效能提升多達 1.25 倍

RNN-T 推論:單一串流

與 A100 40 GB 相比,人工智慧推論效能提升多達 1.25 倍

高效能運算

為了推進新一代發現成果,科學家需要模擬技術以更透徹地瞭解我們周圍的世界。

自 GPU 問世以來,NVIDIA A100 帶來的雙精度 Tensor 核心是高效能運算領域中的最大進展。 搭配 80 GB 速度最快的 GPU 記憶體,研究人員可以將 A100 原需要 10 小時的雙精度模擬,縮短至 4 小時以內完成。在執行單精度的密集矩陣乘法作業時,高效能運算應用程式還可以利用 TF32,藉以提供高達 11 倍的輸送量。

對於擁有最大資料集的高效能運算應用程式,A100 80 GB 可採用一種名為 Quantum Espresso 的材質模擬,使額外記憶體的輸送量提升高達 2 倍。這種龐大的記憶體和前所未有的記憶體頻寬,讓 A100 80 GB 成為新一代工作負載的理想平台。

4 年內,高效能運算效能可提升 11 倍

頂尖高效能運算應用程式

4 年內,高效能運算效能可提升 11 倍

為高效能運算應用程式提升高達 1.8 倍效能

Quantum Espresso

為高效能運算應用程式提升高達 1.8 倍效能

高效能資料分析

在巨量資料分析基準測試中,效能為 A100 40GB 的 2 倍

在巨量資料分析基準測試中,效能為 A100 40GB 的 2 倍

資料科學家要能夠分析、視覺化,並將龐大資料集轉換成深入分析。但是,由於這些資料集分散在多個伺服器上,經常無法實行擴充解決方案。

使用 A100 的加速伺服器可提供處理這些工作負載所需的運算能力,包含每秒超過 2 TB (TB/秒) 的記憶體頻寬以及 NVIDIA® NVLink® 和 NVSwitch 的擴充能力。NVIDIA 資料中心平台結合了 InfiniBand、NVIDIA Magnum IO 以及 RAPIDS 開放原始碼函式庫套件,包括用於獲得 GPU 加速的資料分析,適用於 Apache Spark 的 RAPIDS 加速器,能夠以前所未有的效能與效率,加速這些龐大的工作負載。

在巨量資料分析基準測試中,A100 80 GB 比起 A100 40 GB 提供了高出 2 倍的深入分析,因此非常適合資料集急遽成長的新興工作負載。

適用於企業

多執行個體 GPU (MIG) 的推論輸送量提高 7 倍

BERT 大型推論

多執行個體 GPU (MIG) 的推論輸送量提高 7 倍

運用 MIG 的 A100 可將 GPU 加速的基礎架構使用率提升到最高。MIG 可將 A100 GPU 安全地分割成多達 7 個獨立的執行個體,讓多名使用者存取 GPU 加速功能。A100 40 GB 可讓每個 MIG 執行個體分配到多達 5 GB,而 A100 80 GB 因為記憶體容量增加,分配大小可加倍至 10 GB。

MIG 能與 Kubernetes、容器和以監視器為基礎的伺服器虛擬化搭配使用。MIG 讓基礎架構管理員能為每項作業提供適當規模的 GPU 及服務品質保障 (QoS),將加速運算資源的範圍延伸至每位使用者。

徹底發揮系統效能

NVIDIA 認證系統 (包括 A100 和 NVIDIA Mellanox SmartnNIC 與 DPU) 經過效能、功能、可擴充性和安全性的驗證,讓企業能夠針對 NVIDIA NGC 目錄的人工智慧工作負載,輕鬆部署完整解決方案。

資料中心 GPU

適用於 HGX 的NVIDIA A100

適用於 HGX 的NVIDIA A100

為所有工作負載提供終極效能。

適用於 PCIe 的 NVIDIA A100

適用於 PCIe 的 NVIDIA A100

為所有工作負載提供最高程度的多樣性。

規格

  A100 80GB PCIe A100 80GB SXM
FP64 9.7 兆次浮點運算
FP64 Tensor 核心 19.5 兆次浮點運算
FP32 19.5 兆次浮點運算
Tensor Float 32 (TF32) 156 兆次浮點運算 | 312 兆次浮點運算*
BFLOAT16 Tensor 核心 312 兆次浮點運算 | 624 兆次浮點運算*
FP16 Tensor 核心 312 兆次浮點運算 | 624 兆次浮點運算*
INT8 Tensor 核心 624 兆次浮點運算 | 1248 兆次浮點運算*
GPU 記憶體 80GB HBM2e 80GB HBM2e
GPU 記憶體頻寬 1,935 GB/s 2,039 GB/s
最大散熱設計功耗 (TDP) 300W 400W ***
多執行個體 GPU 最多 7 個 MIGs @ 10GB 最多 7 個 MIGs @ 10GB
尺寸規格 PCIe
雙槽風冷或單槽水冷
SXM
互連技術 NVIDIA® NVLink® 橋接器,可支援 2 個 GPU:每秒 600GB **
第四代 PCIe : 每秒 64GB
NVLink: 每秒 600GB
第四代 PCIe: 每秒 64GB
伺服器選項 合作夥伴提供的 NVIDIA 認證系統™,搭載 1-8 個 GPU 與合作夥伴整合的 NVIDIA HGX™ A100 及合作夥伴提供的 NVIDIA 認證系統™,搭載 4、8 或 16 個 GPU NVIDIA DGX™ A100,搭載 8 個 GPU
 

查看最新 MLPerf 基準資料

一窺 NVIDIA Ampere 架構

瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。