首款搭載 Tensor 核心 GPU
從個人癌症療程,到協助虛擬私人助理自然溝通以及預測下一場大型颶風,只要能在龐大的資料中找出獨到洞見,就可為產業帶來徹底轉變。
NVIDIA® V100 是最先進的資料中心 GPU,專為加快人工智慧、HPC 和繪圖運算速度而設計。採用 NVIDIA Volta 架構,提供 16 GB 和 32 GB 設定,單一 GPU 即可展現媲美 100 個 CPU 的效能。資料科學家、研究人員和工程師可以省下配置記憶體使用最佳化的時間,投入更多精力設計下一個人工智慧的重大突破。
ResNet-50 training, dataset: ImageNet2012, BS=256 | NVIDIA V100 comparison: NVIDIA DGX-2™ server, 1x V100 SXM3-32GB, MXNet 1.5.1, container=19.11-py3, mixed precision, throughput: 1,525 images/sec | Intel comparison: Supermicro SYS-1029GQ-TRT, 1 socket Intel Gold 6240@2GHz/3.9Hz Turbo, Tensorflow 0.18, FP32 (only precision available), throughput: 48 images/sec
從語音辨識到訓練虛擬私人助理自然溝通,或從開車時偵測車道到訓練自駕車行駛,資料科學家運用人工智慧克服更複雜的挑戰。解決這類的問題需要在可以掌握的時間內,訓練複雜度非常高的深度學習模型。
配備 43000 個 Tensor 核心的 V100,是全球第一個突破 100 兆次浮點運算 (TOPS) 深度學習效能障礙的 GPU。第二代 NVIDIA NVLink™ 以最高每秒 160 GB 的速度連結多個 V100 GPU,建立世界最強大的運算伺服器。在先前系統上會耗費數週運算資源的人工智慧模型,現在只要幾天就可以訓練完成。訓練時間大幅縮短後,人工智慧現在能協助我們解決全新領域的問題。
BERT Base fine-tuning inference, dataset: SQuADv1.1, BS=1, sequence length=128 | NVIDIA V100 comparison: Supermicro SYS-4029GP-TRT, 1x V100-PCIE-16GB, pre-release container, mixed precision, NVIDIA TensorRT™ 6.0, throughput: 557 sentences/sec | Intel comparison: 1 socket Intel Gold 6240@2.6GHz/3.9Hz Turbo, FP32 (only precision available), OpenVINO MKL-DNN v0.18, throughput: 23.5 sentences/sec
為了讓我們能連接上最相關的資訊、服務和產品,超大規模的公司已開始運用人工智慧。不過,滿足使用者快速成長的需求並不容易。舉例來說,世界最大型的超大規模公司估計,如果每位使用者每天只花三分鐘使用語音辨識服務,公司就要加倍資料中心的容量。
超大規模的 V100 是針對現有超大規模伺服器架中的最高效能所設計。使用人工智慧作為核心技術,一個配備 V100 GPU 的 13kW 伺服器架可以提供與 CPU 伺服器 47 個機架相同的深度學習推論效能。這個輸送量和效能的大幅成長將使可橫向擴充的人工智慧服務成為可能。
Application (Dataset): MILC (APEX Medium) and Chroma (szscl21_24_128) | CPU Server: Dual-Socket Intel Xeon Platinum 8280 (Cascade Lake)
HPC 是現代科技的重要支柱。從氣候預測到藥品開發,再到尋找新的能源資源,研究人員使用大量運算系統來模擬和預測我們的世界。人工智慧讓研究人員可以分析大量資料,延伸傳統的 HPC 技術,在單純模擬無法完全預測真實世界情況之處,獲得實用的資訊。
V100 是專為結合 HPC 和人工智慧所設計。它提供 HPC 系統一個擅長科學模擬和資料科學的運算技術的平台,以在資料中找出見解。在整合的架構中搭配使用 CUDA 核心和 Tensor 核心,採用 V100 GPU 的單一伺服器可以上百個僅配備 CPU 的設備伺服器,取代傳統的 HPC 和人工智慧工作負載。所有的研究人員和工程師現在都可負擔人工智慧超級電腦的價格,來處理最具挑戰的工作。
深度學習的終極效能
為所有工作負載提供最高程度的多樣性
雙精度 7.8 teraFLOPS
單精度 15.7 teraFLOPS
深度學習 125 teraFLOPS
雙精度 7 teraFLOPS
單精度 14 teraFLOPS
深度學習 112 teraFLOPS
雙精度 8.2 teraFLOPS
單精度 16.4 teraFLOPS
深度學習 130 teraFLOPS
NVLink 300 GB/秒
PCIe 32 GB/秒
容量 32/16 GB HBM2
頻寬 900 GB/秒
容量 32 GB HBM2
頻寬 1134 GB/秒
300 瓦特
250 瓦特
世界上最快速的 HPC 與深度學習專用 GPU 加速器。
透過 NVIDIA 合作夥伴網路 (NPN) 尋找 NVIDIA 加速運算合作夥伴。