MLPerf 基準

NVIDIA 人工智慧平台在 MLPerf 訓練、推論及高效能運算方面皆展現領先業界的效能和多功能性,能夠處理實際應用中最嚴苛的人工智慧工作負載。

什麼是 MLPerf?

MLPerf™ 基準是由學術界、研究實驗室和業界人士組成的 MLCommons 所開發,為硬體、軟體和服務的訓練與推論效能提供中立評估。這些評估都是在預定的條件下進行。為了在業界趨勢中保持領先地位,MLPerf 不斷發展,定期進行新測試並增加代表人工智慧最先進水平的新工作負載。

查爾姆斯理工大學是瑞典首屈一指的研究機構,專攻奈米技術和氣候變遷研究等多個領域。我們將人工智慧與研究工作結合,發現 MLPerf 基準提供了跨多個人工智慧平台的同類型比較,以展示不同實際用例中的效能。

— 瑞典查爾姆斯理工大學

台積電 (TSMC) 正在推動全球半導體製造的領先技術,例如我們最新的 5 奈米節點,即在程序技術市場上引領先鋒。採用機器學習的微影製程和蝕刻建模等創新技術,大幅提升我們的光學鄰近修正 (OPC) 和蝕刻模擬精度。為了讓機器學習在模型訓練和推理中發揮十足潛力,我們正與 NVIDIA 工程團隊合作,將自家的 Maxwell 模擬和逆向微影製程技術 (ILT) 引擎轉移到 GPU 上,以大幅加速。MLPerf 基準是決策的重要因素。

— 美國加州聖荷西市台積電 OPC 部主任,Danping Peng 博士

電腦視覺和成像是人工智慧研究的核心,不僅推動科學發現,也是醫療保健的關鍵組成。我們與 NVIDIA 密切合作,將 3DUNet 等創新技術引入醫療照護市場。業界標準 MLPerf 基準提供相關效能資料,幫助 IT 組織和開發人員取得正確解決方案,加速特定專案與應用程式。

— 德國癌症研究中心 (DKFZ) 醫學影像運算主任,Klaus Maier-Hein 博士

作為研究與製造的卓越先鋒,三星 (Samsung) 使用人工智慧以顯著提升產品效能、提高製造生產力。我們必須擁有最佳運算平台,才能將這些人工智慧先進技術轉型為產品。MLPerf 基準可跨平台統一評估,提供我們開放又直接的評估方法,精簡選擇流程。

— 三星電子 (Samsung Electronics)

深入瞭解 MLPerf 基準

MLPerf Training v3.1 可測量 9 種不同使用案例的模型訓練時間,包括大型語言模型 (LLM)、影像產生、電腦視覺、醫學影像分割、語音辨識和推薦。

MLPerf Inference v3.1 使用 7 種不同的神經網路來測試推論效能,包括 LLM、自然語言處理、電腦視覺和醫學影像分割。

MLPerf 高效能運算 v3.0 可測試 4 種不同的科學運算使用案例,包括氣候大氣河流識別、宇宙學參數預測、量子分子建模和蛋白質結構預測。

大型語言模型

大型語言模型

在大規模資料集上訓練的深度學習演算法,可針對各種使用案例進行辨識、總結、翻譯、預測和產生內容。 詳細資訊

文字轉影像

文字轉影像

根據文字提示產生影像。 詳細資訊

推薦

推薦

透過瞭解使用者與服務產品之間的互動 (如產品或廣告),為使用者端服務提供個人化結果 (如社群媒體或電子商務網站)。詳細資訊

物體偵測 (輕量型)

物體偵測 (輕量型)

在影像或影片中尋找真實世界中的物體,如臉部、自行車和建築,並指定每個物體周圍的邊框。詳細資訊

物體偵測 (重量型)

物體偵測 (重量型)

在影像集中偵測感興趣的物體,並為每個物體識別出像素遮罩。 詳細資訊

影像分類

影像分類

從一組固定類別中為輸入的影像指派標籤,應用於電腦視覺問題。詳細資訊

自然語言處理 (NLP)

自然語言處理 (NLP)

利用文字區塊中不同單詞間的關係瞭解文字。能夠解答問題、釋義句子,及完成許多其他語言相關的使用案例。詳細資訊

自動語音辨識 (ASR)

自動語音辨識 (ASR)

即時辨識及轉譯音訊。詳細資訊

生物醫學影像分割

生物醫學影像分割

在醫療使用案例中執行密集 3D 影像的立體分割。詳細資訊

氣候大氣河流識別

氣候大氣河流識別

辨識氣候模擬資料中的颶風和大氣河流。 詳細資訊

宇宙學參數預測

宇宙學參數預測

解決宇宙學資料的 3D 影像迴歸問題。 詳細資訊

量子分子建模

量子分子建模

預測能量或分子構型。 詳細資訊

蛋白質結構預測

蛋白質結構預測

根據一維胺基酸連接性預測三維蛋白質結構。 詳細資訊

NVIDIA MLPerf 基準測試成果

  • 訓練

    訓練

  • 推論

    推論

  • 高效能運算

    高效能運算

NVIDIA 加速運算平台採用 NVIDIA H100 Tensor 核心 GPUs 和 NVIDIA Quantum-2 InfiniBand 網路,打破了 MLPerf Training v3.1 大型 LLM 訓練的效能記錄,以前所未見的 10,752 個 H100 顯示卡規模強化兩次提交內容,在 GPT-3 175B 基準測試達到近線性成長的效率。此外,NVIDIA 平台在新加入的 Stable Diffusion 文字轉影像測試中樹立了新標竿,展現出最高效能和無與倫比的擴充性。NVIDIA 持續不懈地以資料中心規模推動全方位的工程設計,致力如光速般加速人工智慧訓練效能。

NVIDIA 以有史以來規模最大的 MLPerf 提交內容,創下大型語言模型訓練新記錄

NVIDIA Sets a New Large Language Model Training Record With Largest MLPerf Submission Ever
Benchmark Per-Accelerator Records
(NVIDIA H100 Tensor Core GPU)
Large Language Model (GPT-3 175B) 548 hours (23 days)
Natural Language Processing (BERT) 0.71 hours
Recommendation (DLRM-DCNv2) 0.56 hours
Speech Recognition (RNN-T) 2.2 hours
Image Classification (ResNet-50 v1.5) 1.8 hours
Object Detection, Heavyweight (Mask R-CNN) 2.6 hours
Object Detection, Lightweight (RetinaNet) 4.9 hours
Image Segmentation (3D U-Net) 1.6 hours

NVIDIA 人工智慧平台在各個 MLPerf 訓練測試中皆達到最高效能

除了在先進大型語言模型和文字轉影像測試展現大規模的突破性效能之外,NVIDIA 還在 MLPerf Training v3.1 的推薦系統、物體偵測、醫學影像分割和自然語言處理工作負載測試創下嶄新的效能記錄。 透過 NVIDIA H100 GPU 和 NVIDIA Quantum-2,NVIDIA 平台持續在每個基準測試中創下最快訓練時間的紀錄,展現出處理各種人工智慧工作負載無與倫比的效能和多樣性。

最大規模效能

基準 訓練時間
GPT-3 3.92 分鐘
Stable Diffusion v2 2.47 分鐘
DLRM-DCNv2 1.0 分鐘
BERT-large 0.12 分鐘
ResNet-50 v1.5 0.18 分鐘
Mask R-CNN 1.5 分鐘
RetinaNet 0.92 分鐘
3D U-Net 0.77 分鐘
RNN-T 1.7 分鐘

NVIDIA H100 Tensor 核心 GPU 為每個 MLPerf Inference v3.1 資料中心工作負載和場景的最高吞吐量系統提供支援。首次進行 MLPerf 測試時, NVIDIA GH200 Grace Hopper™ 超級晶片 成功執行所有工作負載,且超越 H100 的卓越效能。 NVIDIA L4 Tensor 核心 GPU, 經過最佳化,是適用於主流伺服器最有效率的 NVIDIA 加速器,在各方面都有優異表現。在節能的邊緣人工智慧和機器人應用程式方面,NVIDIA Jetson AGX Orin™ 和 Jetson Orin NX 繼續發揮出色的模組系統推論功能。

適用於資料中心和邊緣的離線情境 (單一 GPU )

NVIDIA GH200 Grace Hopper 超級晶片 (推論/秒) NVIDIA H100 (推論/秒) NVIDIA L4 (推論/秒) NVIDIA Jetson AGX Orin (最大推論/查詢) NVIDIA Jetson Orin NX (最大推論/查詢)
GPT-J (大型語言模型) 13.34 13.29 1.30 未提供 未提供
DLRMv2 (推薦系統) 49,002 42,856 3,673 未提供* 未提供*
BERT (自然語言處理)** 8,646 7,878 631 554 195
ResNet-50 v1.5 (影像分類) 93,198 88,526 12,882 6,424 2,641
RetinaNet (物體偵測) 1,849 1,761 226 149 67
RNN-T (語音辨識) 25,975 23,307 3,899 1,170 432
3D U-Net (醫學影像) 6.8 6.5 1.07 0.51 0.20

NVIDIA H100 Tensor 核心首次進行 MLPerf 高效能運算 v3.0 測試時,大幅強化了 NVIDIA 高效能運算和人工智慧平台的效能,將效能提升至高達 2 倍,並在訓練時間和輸送量指標上為所有工作負載提供最高效能。NVIDIA 平台也是唯一能提交所有 MLPerf 高效能運算工作負載結果的平台,領域涵蓋氣候分段、宇宙學參數預測、量子分子建模以及最新加入的蛋白質結構預測。NVIDIA 平台具備無與倫比的效能和多樣性,是推進下一波人工智慧科學發現的最佳工具。

3 年內效能提升達 16 倍

NVIDIA 全方位創新加速效能提升

Up to 16X More Performance in 3 Years
Up to 16X More Performance in 3 Years

成果背後的技術

需要平台在各方面間緊密整合,才能實現複雜的人工智慧技術。誠如 MLPerf 的基準測試成果所示,NVIDIA 人工智慧平台利用全球最先進的 GPU、強大且可擴充的互連技術,及尖端軟體提供領先效能,是一款可部署在資料中心、雲端或邊緣的端對端解決方案,更能達到驚人成效。

Pre-trained models and Optimized Software from NVIDIA NGC

加速人工智慧工作流程的最佳化軟體

NGC™ 目錄  作為 NVIDIA 平台及促成 MLPerf 訓練與推論成果的基本元件,是一款適用於 GPU 最佳化人工智慧、高效能運算和資料分析軟體的中樞,可簡化並加速端到端工作流程。NGC 擁有超過 150 個企業級容器,包括 生成式人工智慧、 對話式人工智慧、和 推薦系統 的工作負載、數百個人工智慧模型,以及可部署於本機、雲端或邊緣的特定產業 SDK,讓資料科學家、研究人員和開發人員能以前所未有的速度打造出一流的解決方案、蒐集洞察,並提供商業價值。

人工智慧基礎架構領導品牌

若要在訓練與推論中獲得領先全球的成果,需要具備專為全球最複雜人工智慧挑戰打造的基礎架構。NVIDIA 人工智慧平台具備 NVIDIA GH200 Grace Hopper 超級晶片、NVIDIA H100 Tensor 核心 GPU、NVIDIA L4 Tensor 核心 GPU,以及 NVIDIA 互連技(NVIDIA® NVLink® 及 NVSwitch™ 與  NVIDIA Quantum-2 InfiniBand) 的擴充性和彈性,可提供頂尖效能。這些都是 NVIDIA 資料中心平台的核心,也是我們基準測試效能背後的引擎。

此外, NVIDIA DGX™ 系統提供了擴充性、快速部署和強大的運算能力,讓每個企業都能打造頂尖的人工智慧基礎架構。

Leadership-Class AI Infrastructure

深入瞭解我們的資料中心訓練和推論產品效能。