— 瑞典查爾姆斯理工大學
MLPerf™ 基準是由學術界、研究實驗室和業界人士組成的 MLCommons 所開發,為硬體、軟體和服務的訓練與推論效能提供中立評估。這些評估都是在預定的條件下進行。為了在業界趨勢中保持領先地位,MLPerf 不斷發展,定期進行新測試並增加代表人工智慧最先進水平的新工作負載。
MLPerf Training v3.1 可測量 9 種不同使用案例的模型訓練時間,包括大型語言模型 (LLM)、影像產生、電腦視覺、醫學影像分割、語音辨識和推薦。
MLPerf Inference v3.1 使用 7 種不同的神經網路來測試推論效能,包括 LLM、自然語言處理、電腦視覺和醫學影像分割。
MLPerf 高效能運算 v3.0 可測試 4 種不同的科學運算使用案例,包括氣候大氣河流識別、宇宙學參數預測、量子分子建模和蛋白質結構預測。
NVIDIA 加速運算平台採用 NVIDIA H100 Tensor 核心 GPUs 和 NVIDIA Quantum-2 InfiniBand 網路,打破了 MLPerf Training v3.1 大型 LLM 訓練的效能記錄,以前所未見的 10,752 個 H100 顯示卡規模強化兩次提交內容,在 GPT-3 175B 基準測試達到近線性成長的效率。此外,NVIDIA 平台在新加入的 Stable Diffusion 文字轉影像測試中樹立了新標竿,展現出最高效能和無與倫比的擴充性。NVIDIA 持續不懈地以資料中心規模推動全方位的工程設計,致力如光速般加速人工智慧訓練效能。
除了在先進大型語言模型和文字轉影像測試展現大規模的突破性效能之外,NVIDIA 還在 MLPerf Training v3.1 的推薦系統、物體偵測、醫學影像分割和自然語言處理工作負載測試創下嶄新的效能記錄。 透過 NVIDIA H100 GPU 和 NVIDIA Quantum-2,NVIDIA 平台持續在每個基準測試中創下最快訓練時間的紀錄,展現出處理各種人工智慧工作負載無與倫比的效能和多樣性。
NVIDIA H100 Tensor 核心 GPU 為每個 MLPerf Inference v3.1 資料中心工作負載和場景的最高吞吐量系統提供支援。首次進行 MLPerf 測試時, NVIDIA GH200 Grace Hopper™ 超級晶片 成功執行所有工作負載,且超越 H100 的卓越效能。 NVIDIA L4 Tensor 核心 GPU, 經過最佳化,是適用於主流伺服器最有效率的 NVIDIA 加速器,在各方面都有優異表現。在節能的邊緣人工智慧和機器人應用程式方面,NVIDIA Jetson AGX Orin™ 和 Jetson Orin NX 繼續發揮出色的模組系統推論功能。
NVIDIA GH200 Grace Hopper 超級晶片 (推論/秒) | NVIDIA H100 (推論/秒) | NVIDIA L4 (推論/秒) | NVIDIA Jetson AGX Orin (最大推論/查詢) | NVIDIA Jetson Orin NX (最大推論/查詢) | |
---|---|---|---|---|---|
GPT-J (大型語言模型) | 13.34 | 13.29 | 1.30 | 未提供 | 未提供 |
DLRMv2 (推薦系統) | 49,002 | 42,856 | 3,673 | 未提供* | 未提供* |
BERT (自然語言處理)** | 8,646 | 7,878 | 631 | 554 | 195 |
ResNet-50 v1.5 (影像分類) | 93,198 | 88,526 | 12,882 | 6,424 | 2,641 |
RetinaNet (物體偵測) | 1,849 | 1,761 | 226 | 149 | 67 |
RNN-T (語音辨識) | 25,975 | 23,307 | 3,899 | 1,170 | 432 |
3D U-Net (醫學影像) | 6.8 | 6.5 | 1.07 | 0.51 | 0.20 |
*DLRMv2 不屬於邊緣類別套件。
** BERT 99.9% 的準確度目標適用於 H100、A100 和 L4。BERT 99% 適用於 Jetson AGX Orin 和 Jetson Orin NX,因為這是 MLPerf 推論:BERT 基準的邊緣類別中支援的最高精度目標
1) 用於資料中心離線情境的 MLPerf Inference v3.1 推論結果。2023 年 9 月 11 日擷取自 www.mlperf.org,來源條目 3.1-0106、3.1-0107、3.1-0108 和 3.1-0110。每個處理器效能並非 MLPerf Inference v3.1 測量的主要指標。每個處理器效能的計算方法是將整體效能的主要指標除以回報的加速器數量。
2) 用於邊緣離線情境的 MLPerf Inference v3.1 推論結果。2023 年 9 月 11 日擷取自 www.mlperf.org,來源條目 3.1-0114、3.1-0116。每個處理器效能並非 MLPerf Inference v3.1 測量的主要指標。每個處理器效能的計算方法是將整體效能的主要指標除以回報的加速器數量。
NVIDIA H100 Tensor 核心首次進行 MLPerf 高效能運算 v3.0 測試時,大幅強化了 NVIDIA 高效能運算和人工智慧平台的效能,將效能提升至高達 2 倍,並在訓練時間和輸送量指標上為所有工作負載提供最高效能。NVIDIA 平台也是唯一能提交所有 MLPerf 高效能運算工作負載結果的平台,領域涵蓋氣候分段、宇宙學參數預測、量子分子建模以及最新加入的蛋白質結構預測。NVIDIA 平台具備無與倫比的效能和多樣性,是推進下一波人工智慧科學發現的最佳工具。
NVIDIA 全方位創新加速效能提升
需要平台在各方面間緊密整合,才能實現複雜的人工智慧技術。誠如 MLPerf 的基準測試成果所示,NVIDIA 人工智慧平台利用全球最先進的 GPU、強大且可擴充的互連技術,及尖端軟體提供領先效能,是一款可部署在資料中心、雲端或邊緣的端對端解決方案,更能達到驚人成效。
若要在訓練與推論中獲得領先全球的成果,需要具備專為全球最複雜人工智慧挑戰打造的基礎架構。NVIDIA 人工智慧平台具備 NVIDIA GH200 Grace Hopper 超級晶片、NVIDIA H100 Tensor 核心 GPU、NVIDIA L4 Tensor 核心 GPU,以及 NVIDIA 互連技(NVIDIA® NVLink® 及 NVSwitch™ 與 NVIDIA Quantum-2 InfiniBand) 的擴充性和彈性,可提供頂尖效能。這些都是 NVIDIA 資料中心平台的核心,也是我們基準測試效能背後的引擎。
此外, NVIDIA DGX™ 系統提供了擴充性、快速部署和強大的運算能力,讓每個企業都能打造頂尖的人工智慧基礎架構。
深入瞭解我們的資料中心訓練和推論產品效能。