— 스웨덴 샬머스 공과대학
MLPerf 벤치마크
NVIDIA AI 플랫폼은 대단히 까다로운 실제 AI 워크로드를 위한 MLPerf 훈련, 추론 및 HPC에서 최고의 성능과 다용성을 보여줍니다.
MLPerf™ 벤치마크는 학계, 연구 실험실 및 업계의 AI 리더로 구성된 컨소시엄 MLCommons에서 개발한 것으로, 하드웨어, 소프트웨어 및 서비스의 훈련과 추론 성능 모두를 편견 없이 평가하도록 설계되었습니다. 이러한 벤치마크는 모두 규정된 조건에 따라 수행됩니다. 최첨단 기술을 지속적으로 유지하기 위해 MLPerf는 발전을 계속하며 정기적으로 새로운 테스트를 시행하고 첨단 AI 기술을 나타내는 새로운 워크로드를 추가합니다.
MLPerf Training v3.1은 대규모 언어 모델(LLM), 이미지 생성, 컴퓨터 비전, 메디컬 이미지 세분화, 음성 인식 및 추천 등 9가지 사용 사례에 걸쳐 모델을 훈련하는 시간을 측정합니다.
MLPerf Inference v3.1은 LLM, 자연어 처리, 컴퓨터 비전, 메디컬 이미지 세분화 등 7가지 종류의 뉴럴 네트워크를 사용하여 추론 성능을 테스트합니다.
MLPerf HPC v3.0은 기후 대기천 식별, 우주론 매개 변수 예측, 양자 분자 모델링 및 단백질 구조 예측을 포함한 4가지 과학 컴퓨팅 사용 사례를 테스트합니다.
NVIDIA H100 Tensor 코어 GPU 및 NVIDIA Quantum-2 InfiniBand 네트워킹을 기반으로 하는 NVIDIA 가속 컴퓨팅 플랫폼은 MLPerf Training v3.1에서 대규모 LLM 훈련 성능 기록을 깨뜨렸으며 GPT-3 175B 벤치마크에서 선형에 가까운 확장 효율성으로 10,752개의 H100 GPU라는 전례 없는 규모로 두 개의 제출물을 지원했습니다. 또한, Stable Diffusion을 기반으로 새로 추가된 텍스트-이미지 테스트에서 NVIDIA 플랫폼은 최고의 성능과 타의 추종을 불허하는 확장성을 제공하는 기준을 제시했습니다. NVIDIA는 데이터센터 규모에서 집요한 풀 스택 엔지니어링을 통해 AI 훈련 성능을 빛의 속도로 지속적으로 가속화하고 있습니다.
지속적인 개선을 달성하는 NVIDIA의 풀 스택 혁신
NVIDIA는 규모별 최첨단 대규모 언어 모델 및 텍스트-이미지 테스트의 획기적인 성능 외에도 MLPerf Training v3.1에서 추천자, 물체 감지, 메디컬 이미지 세분화 및 자연어 처리 워크로드에 대한 새로운 성능 기록을 달성했습니다. NVIDIA H100 GPU 및 NVIDIA Quantum-2를 사용하는 NVIDIA 플랫폼은 모든 벤치마크에서 가장 빠른 훈련 시간을 제공하여 모든 범위의 AI 워크로드를 처리할 수 있는 독보적인 성능과 다용성을 입증합니다.
NVIDIA H100 Tensor 코어 GPU는 모든 MLPerf Inference v3.1 데이터센터 워크로드 및 시나리오에서 최고 처리량 시스템을 구동했습니다. MLPerf 데뷔에서 NVIDIA GH200 Grace Hopper™ Superchip 은 모든 워크로드를 실행하고 H100의 탁월한 성능을 확장했습니다. 메인스트림 서버를 위한 가장 효율적인 NVIDIA 가속기로 최적화된 NVIDIA L4 Tensor 코어 GPU, 도 전반적으로 훌륭한 결과를 달성했습니다. 에너지 효율적인 엣지 AI 및 로보틱스 애플리케이션의 경우, NVIDIA Jetson AGX Orin™ 및 Jetson Orin NX는 계속해서 뛰어난 시스템 온 모듈(system-on-module) 추론 기능을 보여주었습니다.
NVIDIA GH200 Grace Hopper Superchip(추론/초) | NVIDIA H100 (추론/초) | NVIDIA L4 (추론/초) | NVIDIA Jetson AGX Orin(최대 추론/쿼리) | NVIDIA Jetson Orin NX (최대 추론/쿼리) | |
---|---|---|---|---|---|
GPT-J (대규모 언어 모델) | 13.34 | 13.29 | 1.30 | 해당 없음 | 해당 없음 |
DLRMv2 (추천 시스템) | 49,002 | 42,856 | 3,673 | 해당 없음* | 해당 없음* |
BERT (자연어 처리)** | 8,646 | 7,878 | 631 | 554 | 195 |
ResNet-50 v1.5 (이미지 분류) | 93,198 | 88,526 | 12,882 | 6,424 | 2,641 |
RetinaNet (물체 감지) | 1,849 | 1,761 | 226 | 149 | 67 |
RNN-T (음성 인식) | 25,975 | 23,307 | 3,899 | 1,170 | 432 |
3D U-Net (메디컬 이미징) | 6.8 | 6.5 | 1.07 | 0.51 | 0.20 |
*DLRMv2는 엣지 범주 제품군에 속하지 않습니다.
** H100, A100 및 L4에 사용된 BERT 99.9% 정확도 목표. BERT 99%는 Jetson AGX Orin 및 Jetson Orin NX에 사용되었으며, 이는 BERT 벤치마크의 MLPerf Inference: 엣지 범주에서 지원되는 최고 정확도 목표입니다.
1) 2023년 9월 11일 www.mlperf.org에서 검색한 오프라인 시나리오에 대한 MLPerf Inference v3.1 데이터센터 결과(항목 3.1-0106, 3.1-0107, 3.1-0108 및 3.1-0110). 프로세서당 성능은 MLPerf Inference v3.1의 주요 메트릭이 아닙니다. 프로세서당 성능은 총 성능의 기본 메트릭을 보고된 가속기의 수로 나눠 계산되었습니다.
2) 2023년 9월 11일 www.mlperf.org에서 검색한 오프라인 시나리오에 대한 MLPerf Inference v3.1 엣지 결과(항목 3.1-0114, 3.1-0116). 프로세서당 성능은 MLPerf Inference v3.1의 주요 메트릭이 아닙니다. 프로세서당 성능은 총 성능의 기본 메트릭을 보고된 가속기의 수로 나눠 계산되었습니다.
NVIDIA H100 Tensor 코어는 MLPerf HPC v3.0 데뷔에서 HPC 및 AI를 위한 NVIDIA 플랫폼을 강화하여 성능을 최대 2배 향상하고 훈련 시간 및 처리량 메트릭 모두에 걸쳐 모든 워크로드에서 최고의 성능을 제공했습니다. 또한 NVIDIA 플랫폼은 기후 세분화, 우주론 매개 변수 예측, 양자 분자 모델링 및 최신 기능인 단백질 구조 예측을 아우르는 모든 MLPerf HPC 워크로드에 대한 결과를 제출한 유일한 플랫폼이었습니다. NVIDIA 플랫폼은 타의 추종을 불허하는 성능과 다용성으로 차세대 AI 기반 과학적 발견을 지원하는 도구가 되었습니다.
NVIDIA 풀스택 혁신으로 성능 향상 가속화
AI의 복잡성은 플랫폼의 모든 측면 간에 긴밀한 통합을 요구합니다. MLPerf의 벤치마크에서 입증되었듯이 NVIDIA AI 플랫폼은 세계 최첨단 GPU, 성능과 확장성이 뛰어난 상호 연결 기술 및 첨단 소프트웨어를 통해 선도적인 성능을 제공합니다. 이러한 종합적인 솔루션을 데이터센터, 클라우드 또는 엣지에 배포하여 놀라운 결과를 얻을 수 있습니다.
NVIDIA의 플랫폼과 MLPerf 훈련 및 추론 결과의 필수적인 구성 요소인 NGC™ 카탈로그 는 GPU 최적화 AI, HPC, 그리고 전체 워크플로우를 간소화하고 가속화하는 데이터 분석 소프트웨어를 위한 허브입니다 생성형 AI, 대화형 AI 및 추천 시스템; 에 대한 워크로드를 포함한 150개가 넘는 엔터프라이즈급 컨테이너, 수백 개가 넘는 AI 모델, 그리고 온프레미스, 클라우드 또는 엣지에 배포할 수 있는 산업별 SDK를 갖춘 NGC를 통해 데이터 사이언티스트, 연구원 및 개발자는 그 어느 때보다도 빠르게 동급 최고의 솔루션을 구축하고, 인사이트를 모으고, 비즈니스 가치를 제공할 수 있습니다.
훈련 및 추론 부문에서 최고의 결과를 얻으려면 세계에서 가장 복잡한 AI 과제에 맞게 구축된 인프라가 필요합니다. NVIDIA AI 플랫폼은 NVIDIA GH200 Grace Hopper Superchip, NVIDIA H100 Tensor Core GPU, NVIDIA L4 Tensor Core GPU 및 NVIDIA 상호 연결 기술 (NVIDIA® NVLink® 및 NVSwitch™, NVIDIA Quantum-2 InfiniBand)의 확장성과 유연성을 기반으로 최고의 성능을 제공했습니다. 이러한 요소는 모두 NVIDIA 벤치마크 성능을 뒷받침하는 엔진인 NVIDIA 데이터센터 플랫폼의 핵심을 이룹니다.
또한 NVIDIA DGX™ 시스템 은 확장성, 신속한 배포 기능 및 놀라운 컴퓨팅 성능을 제공해 모든 엔터프라이즈에서 선도적인 AI 인프라를 구축할 수 있도록 합니다.
NVIDIA의 데이터센터 트레이닝 및 추론 제품 성능에 대해 자세히 알아보세요.