NVIDIA Ampere 架構是 NVIDIA 企業資料中心的一部份 ,完整的解決方案包含硬體、網路、軟體、函式庫的建置組塊,以及 NVIDIA NGC™ 目錄. 上的最佳化人工智慧模型和應用程式。其代表最強大的資料中心端對端人工智慧和高效能運算平台,讓研究人員能快速產出實際成果,並將解決方案大規模部署到生產環境中。
運用 NVIDIA A30 Tensor 核心 GPU,為各種企業工作負載提供加速效能。這款 GPU 搭載 NVIDIA Ampere 架構 Tensor 核心與多執行個體 GPU (MIG),可安全地加速各種工作負載,包括大規模人工智慧推論和高效能運算 (HPC) 應用程式。A30 採用 PCIe 規格,結合快速記憶體頻寬和低耗能的優點,是主流伺服器的最佳選擇,可建立彈性資料中心,並讓企業發揮最大價值。
NVIDIA Ampere 架構是 NVIDIA 企業資料中心的一部份 ,完整的解決方案包含硬體、網路、軟體、函式庫的建置組塊,以及 NVIDIA NGC™ 目錄. 上的最佳化人工智慧模型和應用程式。其代表最強大的資料中心端對端人工智慧和高效能運算平台,讓研究人員能快速產出實際成果,並將解決方案大規模部署到生產環境中。
BERT 大型推論 (正規化)
ERT-Large 預先訓練 (9/10 迭代) 第 1 階段和 (1/10 迭代) 第 2 階段,第 1 階段序列長度 = 128 和第 2 階段 = 512,資料集 = real,NGC™ 容器 = 21.03,
8 個 GPU:T4 (FP32、BS = 8, 2) | V100 PCIE 16GB (FP32、BS = 8, 2) | A30 (TF32、BS = 8, 2) | A100 PCIE 40GB (TF32、BS = 54, 8) | 上述的批次大小分別指第 1 階段和第 2 階段的批次大小
訓練人工智慧模型處理更高一級的挑戰 (如對話式人工智慧),需要極強大的運算和擴充能力。
若使用精度為 Tensor Float (TF32) 的 NVIDIA A30 Tensor 核心 可在完全不變更程式碼的情況下,提供比 NVIDIA T4 高 10 倍的效能,若使用自動混合精度和 FP16,還可進一步將效能提高 2 倍,且記憶體輸送量總共提升 20 倍。與 NVLink®、第四代 PCIe、NVIDIA 網路和 NVIDIA Magnum IO™ SDK 搭配使用時,還可以擴充到使用數千個 GPU。
Tensor 核心和 MIG 讓 A30 能夠全天動態應用於工作負載。A30 可在需求達到高峰時用於產生推論,而部分 GPU 可以重新調整用途,在離峰期間快速重新訓練這些相同的模型。
NVIDIA 在人工智慧訓練的業界級基準測試 MLPerf中,創下多項效能記錄。
A30 帶來創新功能以最佳化推論工作負載。從 FP64、TF32 到 INT4,加速整個精度範圍。A30 每個 GPU 最多可支援四個 MIG,讓多個網路能夠在安全的硬體分割區中同時運作,且具有服務品質保障 (QoS)。除了 A30 提升的其他推論效能以外,結構化稀疏支援可提供高達 2 倍的效能。
NVIDIA 領先業界的人工智慧效能已在 MLPerf 推論. 中得到證實。A30 結合了 NVIDIA Triton™ 推論伺服器 輕鬆就能大規模部署人工智慧,可為各企業帶來突破性效能。
BERT 大型推論 (正規化)
輸送量延遲 < 10 毫秒
NVIDIA ® TensorRT®,精度 = INT8,序列長度 = 384,NGC 容器 20.12,延遲 < 10 毫秒,資料集 = 合成 1 個 GPU:A100 PCIE 40GB (BS = 8) | A30 (BS = 4) | V100 SXM2 16GB | T4 (BS = 1)
RN50 v1.5 推論 (標準化)
吞吐量延遲小於 7 秒
TensorRT, NGC Container 20.12, Latency <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)
LAMMPS (正規化)
資料集:ReaxFF/C、FP64 | 4 個 GPU:T4、V100 PCIE 16GB、A30
為了推進新一代的發現,科學家需要模擬技術以更透徹地瞭解我們周圍的世界。
NVIDIA A30 搭載 FP64 NVIDIA Ampere 架構 Tensor 核心,自 GPU 問世以來,在高效能運算方面達到了最大進展。此外還結合了 24GB 的 GPU 記憶體和每秒 933GB (GB/秒) 的頻寬,讓研究人員可以快速解決雙精度計算的問題。在執行單精度的密集矩陣乘法作業時,高效能運算應用程式還可以利用 TF32,提供更高的輸送量。
藉由結合 FP64 Tensor 核心和 MIG,研究機構便能安全地分割 GPU,讓多名研究人員能夠使用運算資源,確保服務品質保障 (QoS) 並達到最高的 GPU 使用率。部署人工智慧的企業可以在需求達到高峰時使用 A30 的推論功能,然後在離峰期間將相同的運算伺服器重新用於高效能運算和人工智慧訓練工作負載。
* 具有稀疏性
** NVLink 橋接器,最多可支援兩個 GPU
探索 NVIDIA Ampere 架構的尖端技術。