MLPerf 벤치마크

NVIDIA AI 플랫폼은 대단히 까다로운 실제 AI 워크로드를 위한 MLPerf 훈련, 추론 및 HPC에서 최고의 성능과 다용성을 보여줍니다.

MLPerf란 무엇입니까?

MLPerf™ 벤치마크는 학계, 연구 실험실 및 업계의 AI 리더로 구성된 컨소시엄 MLCommons에서 개발한 것으로, 하드웨어, 소프트웨어 및 서비스의 훈련과 추론 성능 모두를 편견 없이 평가하도록 설계되었습니다. 이러한 벤치마크는 모두 규정된 조건에 따라 수행됩니다. 최첨단 기술을 지속적으로 유지하기 위해 MLPerf는 발전을 계속하며 정기적으로 새로운 테스트를 시행하고 첨단 AI 기술을 나타내는 새로운 워크로드를 추가합니다.

샬머스 대학은 스웨덴의 선도적 연구 기관 중 하나로, 나노 기술에서 기후 연구에 이르기까지 여러 분야에 특화되어 있습니다. 연구 활동의 진전을 위해 AI를 통합하는 가운데 MLPerf 벤치마크가 여러 AI 플랫폼에서 투명하고 공정한 비교를 제공하여 다양한 사용 사례에서 실질적인 성능을 선보인다는 것을 알게 되었습니다.

— 스웨덴 샬머스 공과대학

TSMC는 공정 기술 시장을 선도하는 최신 5nm 노드 등으로 글로벌 반도체 제조의 최첨단을 주도하고 있습니다. 머신 러닝 기반 리소그래피 및 식각 모델링과 같은 혁신은 광학 근접 보정(OPC) 및 식각 시뮬레이션 정확도를 획기적으로 향상시키고 있습니다. 모델 훈련 및 추론에서 머신 러닝의 잠재력을 완전히 끌어내기 위해 NVIDIA 엔지니어링 팀과 협력하여 Maxwell 시뮬레이션 및 ILT(Inverse Lithography Technology) 엔진을 GPU에 이식하여 속도를 크게 향상시켰습니다. MLPerf 벤치마크는 저희의 의사 결정에 있어 중요한 요소입니다.

— Danping Peng 박사, 미국 캘리포니아 산호세, TSMC OPC 부서 이사

컴퓨터 비전과 이미징은 AI 연구의 핵심이며, 과학적 발견을 주도하고 의료의 핵심 구성 요소를 손쉽게 표현합니다. 저희는 3DUNet과 같은 혁신을 헬스케어 시장에 제공하기 위해 NVIDIA와 긴밀히 협력했습니다. 특정 프로젝트 및 애플리케이션 작업을 가속화하기 위해 업계 표준 MLPerf 벤치마크는 IT 조직 및 개발자에게 관련 성능 데이터를 제공하여 올바른 솔루션을 얻을 수 있습니다.

— Klaus Maier-Hein 교수, DKFZ(독일 암 연구 센터) 의료 이미지 컴퓨팅 책임자

연구 및 제조 분야의 선두 주자인 삼성은 AI를 활용하여 제품 성능과 제조 생산성을 크게 향상하고 있습니다. 이러한 AI를 활용하기 위해 최고의 컴퓨팅 플랫폼을 사용할 수 있어야 합니다. MLPerf 벤치마크는 플랫폼 전반에 걸쳐 균일하게 평가할 수 있도록 개방적이고 직접적인 평가 방법을 제공함으로써 선택 프로세스를 간소화합니다

— 삼성전자

MLPerf 벤치마크 살펴보기

MLPerf Training v3.1은 대규모 언어 모델(LLM), 이미지 생성, 컴퓨터 비전, 메디컬 이미지 세분화, 음성 인식 및 추천 등 9가지 사용 사례에 걸쳐 모델을 훈련하는 시간을 측정합니다.

MLPerf Inference v3.1은 LLM, 자연어 처리, 컴퓨터 비전, 메디컬 이미지 세분화 등 7가지 종류의 뉴럴 네트워크를 사용하여 추론 성능을 테스트합니다.

MLPerf HPC v3.0은 기후 대기천 식별, 우주론 매개 변수 예측, 양자 분자 모델링 및 단백질 구조 예측을 포함한 4가지 과학 컴퓨팅 사용 사례를 테스트합니다.

대규모 언어 모델

대규모 언어 모델

대규모 데이터세트에 대해 훈련된 딥 러닝 알고리즘으로, 다양한 사용 사례를 위한 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있습니다. 세부 정보..

텍스트-이미지

텍스트-이미지

텍스트 프롬프트에서 이미지를 생성합니다. 세부 정보.

추천

추천

소셜 미디어나 전자 상거래 웹 사이트와 같은 사용자 대면 서비스에서 사용자와 서비스 품목(제품 또는 광고 등) 간의 상호 작용을 파악하여 맞춤형 결과를 제공합니다. 상세 정보.

물체 감지(경량)

물체 감지(경량)

이미지나 영상에서 얼굴, 자전거, 건물 등 실제 물체의 인스턴스를 찾아 각각의 주위에 경계 상자를 지정합니다. 상세 정보.

물체 감지(중량)

물체 감지(중량)

이미지에 나타나는 관심 있는 뚜렷한 물체를 감지하여 각각에 대해 픽셀 마스크를 식별합니다. 상세 정보.

이미지 분류

이미지 분류

정해진 범주 집합의 레이블을 입력 이미지에 할당합니다. 즉, 컴퓨터 비전 문제에 적용합니다. 상세 정보.

자연어 처리(NLP)

자연어 처리(NLP)

텍스트 블록의 다양한 단어 간 관계를 이용하여 텍스트를 이해합니다. 질문 답변, 문장 의역 및 기타 많은 언어 관련 사용 사례가 허용됩니다. 상세 정보.

자동 음성 인식(ASR)

자동 음성 인식(ASR)

오디오를 실시간으로 인식하고 전사합니다. 상세 정보.

생체 의학 이미지 세분화

생체 의학 이미지 세분화

의료 응용 사례를 위한 고밀도 3D 이미지의 용적 측정 세분화를 수행합니다. 상세 정보.

기후 대기천 식별

기후 대기천 식별

기후 시뮬레이션 데이터에서 허리케인과 대기천을 식별합니다. 세부 정보.

우주론 매개 변수 예측

우주론 매개 변수 예측

우주론 데이터에 대한 3D 이미지 회귀 문제를 해결합니다. 세부 정보.

양자 분자 모델링

양자 분자 모델링

에너지 또는 분자 구성을 예측합니다. 세부 정보.

단백질 구조 예측

단백질 구조 예측

1차원 아미노산 연결성을 기반으로 3차원 단백질 구조를 예측합니다. 세부 정보.

NVIDIA MLPerf 벤치마크 결과

  • 훈련

    훈련

  • 추론

    추론

  • HPC

    HPC

NVIDIA H100 Tensor 코어 GPUNVIDIA Quantum-2 InfiniBand 네트워킹을 기반으로 하는 NVIDIA 가속 컴퓨팅 플랫폼은 MLPerf Training v3.1에서 대규모 LLM 훈련 성능 기록을 깨뜨렸으며 GPT-3 175B 벤치마크에서 선형에 가까운 확장 효율성으로 10,752개의 H100 GPU라는 전례 없는 규모로 두 개의 제출물을 지원했습니다. 또한, Stable Diffusion을 기반으로 새로 추가된 텍스트-이미지 테스트에서 NVIDIA 플랫폼은 최고의 성능과 타의 추종을 불허하는 확장성을 제공하는 기준을 제시했습니다. NVIDIA는 데이터센터 규모에서 집요한 풀 스택 엔지니어링을 통해 AI 훈련 성능을 빛의 속도로 지속적으로 가속화하고 있습니다.

3년 만에 MLPerf 성능 20배 이상 향상

지속적인 개선을 달성하는 NVIDIA의 풀 스택 혁신

NVIDIA Sets a New Large Language Model Training Record With Largest MLPerf Submission Ever
Benchmark Per-Accelerator Records
(NVIDIA H100 Tensor Core GPU)
Large Language Model (GPT-3 175B) 548 hours (23 days)
Natural Language Processing (BERT) 0.71 hours
Recommendation (DLRM-DCNv2) 0.56 hours
Speech Recognition (RNN-T) 2.2 hours
Image Classification (ResNet-50 v1.5) 1.8 hours
Object Detection, Heavyweight (Mask R-CNN) 2.6 hours
Object Detection, Lightweight (RetinaNet) 4.9 hours
Image Segmentation (3D U-Net) 1.6 hours

모든 MLPerf 훈련 테스트에서 최고의 성능을 달성한 NVIDIA AI 플랫폼

NVIDIA는 규모별 최첨단 대규모 언어 모델 및 텍스트-이미지 테스트의 획기적인 성능 외에도 MLPerf Training v3.1에서 추천자, 물체 감지, 메디컬 이미지 세분화 및 자연어 처리 워크로드에 대한 새로운 성능 기록을 달성했습니다. NVIDIA H100 GPU 및 NVIDIA Quantum-2를 사용하는 NVIDIA 플랫폼은 모든 벤치마크에서 가장 빠른 훈련 시간을 제공하여 모든 범위의 AI 워크로드를 처리할 수 있는 독보적인 성능과 다용성을 입증합니다.

최대 규모 성능

벤치마크 훈련 시간
GPT-3 3.92 분
Stable Diffusion v2 2.47 분
DLRM-DCNv2 1.0 분
BERT-large 0.12 분
ResNet-50 v1.5 0.18 분
Mask R-CNN 1.5 분
RetinaNet 0.92 분
3D U-Net 0.77 분
RNN-T 1.7 분

NVIDIA H100 Tensor 코어 GPU는 모든 MLPerf Inference v3.1 데이터센터 워크로드 및 시나리오에서 최고 처리량 시스템을 구동했습니다. MLPerf 데뷔에서 NVIDIA GH200 Grace Hopper™ Superchip 은 모든 워크로드를 실행하고 H100의 탁월한 성능을 확장했습니다. 메인스트림 서버를 위한 가장 효율적인 NVIDIA 가속기로 최적화된 NVIDIA L4 Tensor 코어 GPU, 도 전반적으로 훌륭한 결과를 달성했습니다. 에너지 효율적인 엣지 AI 및 로보틱스 애플리케이션의 경우, NVIDIA Jetson AGX Orin™ 및 Jetson Orin NX는 계속해서 뛰어난 시스템 온 모듈(system-on-module) 추론 기능을 보여주었습니다.

데이터센터 및 엣지에 대한 오프라인 시나리오(단일 GPU)

NVIDIA GH200 Grace Hopper Superchip(추론/초) NVIDIA H100 (추론/초) NVIDIA L4 (추론/초) NVIDIA Jetson AGX Orin(최대 추론/쿼리) NVIDIA Jetson Orin NX (최대 추론/쿼리)
GPT-J (대규모 언어 모델) 13.34 13.29 1.30 해당 없음 해당 없음
DLRMv2 (추천 시스템) 49,002 42,856 3,673 해당 없음* 해당 없음*
BERT (자연어 처리)** 8,646 7,878 631 554 195
ResNet-50 v1.5 (이미지 분류) 93,198 88,526 12,882 6,424 2,641
RetinaNet (물체 감지) 1,849 1,761 226 149 67
RNN-T (음성 인식) 25,975 23,307 3,899 1,170 432
3D U-Net (메디컬 이미징) 6.8 6.5 1.07 0.51 0.20

NVIDIA H100 Tensor 코어는 MLPerf HPC v3.0 데뷔에서 HPC 및 AI를 위한 NVIDIA 플랫폼을 강화하여 성능을 최대 2배 향상하고 훈련 시간 및 처리량 메트릭 모두에 걸쳐 모든 워크로드에서 최고의 성능을 제공했습니다. 또한 NVIDIA 플랫폼은 기후 세분화, 우주론 매개 변수 예측, 양자 분자 모델링 및 최신 기능인 단백질 구조 예측을 아우르는 모든 MLPerf HPC 워크로드에 대한 결과를 제출한 유일한 플랫폼이었습니다. NVIDIA 플랫폼은 타의 추종을 불허하는 성능과 다용성으로 차세대 AI 기반 과학적 발견을 지원하는 도구가 되었습니다.

3년 만에 최대 16배 더 향상된 성능

NVIDIA 풀스택 혁신으로 성능 향상 가속화

Up to 16X More Performance in 3 Years
Up to 16X More Performance in 3 Years

뛰어난 기술이 뒷받침된 놀라운 결과

AI의 복잡성은 플랫폼의 모든 측면 간에 긴밀한 통합을 요구합니다. MLPerf의 벤치마크에서 입증되었듯이 NVIDIA AI 플랫폼은 세계 최첨단 GPU, 성능과 확장성이 뛰어난 상호 연결 기술 및 첨단 소프트웨어를 통해 선도적인 성능을 제공합니다. 이러한 종합적인 솔루션을 데이터센터, 클라우드 또는 엣지에 배포하여 놀라운 결과를 얻을 수 있습니다.

Pre-trained models and Optimized Software from NVIDIA NGC

AI 워크플로우를 가속화하는 최적화된 소프트웨어

NVIDIA의 플랫폼과 MLPerf 훈련 및 추론 결과의 필수적인 구성 요소인 NGC™ 카탈로그 는 GPU 최적화 AI, HPC, 그리고 전체 워크플로우를 간소화하고 가속화하는 데이터 분석 소프트웨어를 위한 허브입니다 생성형 AI, 대화형 AI 및 추천 시스템; 에 대한 워크로드를 포함한 150개가 넘는 엔터프라이즈급 컨테이너, 수백 개가 넘는 AI 모델, 그리고 온프레미스, 클라우드 또는 엣지에 배포할 수 있는 산업별 SDK를 갖춘 NGC를 통해 데이터 사이언티스트, 연구원 및 개발자는 그 어느 때보다도 빠르게 동급 최고의 솔루션을 구축하고, 인사이트를 모으고, 비즈니스 가치를 제공할 수 있습니다.

동급 최고의 AI 인프라

훈련 및 추론 부문에서 최고의 결과를 얻으려면 세계에서 가장 복잡한 AI 과제에 맞게 구축된 인프라가 필요합니다. NVIDIA AI 플랫폼은 NVIDIA GH200 Grace Hopper Superchip, NVIDIA H100 Tensor Core GPU, NVIDIA L4 Tensor Core GPU 및 NVIDIA 상호 연결 기술 (NVIDIA® NVLink® 및 NVSwitch™, NVIDIA Quantum-2 InfiniBand)의 확장성과 유연성을 기반으로 최고의 성능을 제공했습니다. 이러한 요소는 모두 NVIDIA 벤치마크 성능을 뒷받침하는 엔진인 NVIDIA 데이터센터 플랫폼의 핵심을 이룹니다.

또한 NVIDIA DGX™ 시스템 은 확장성, 신속한 배포 기능 및 놀라운 컴퓨팅 성능을 제공해 모든 엔터프라이즈에서 선도적인 AI 인프라를 구축할 수 있도록 합니다.

Leadership-Class AI Infrastructure

NVIDIA의 데이터센터 트레이닝 및 추론 제품 성능에 대해 자세히 알아보세요.