MLPerf-Benchmarks

Die NVIDIA AI-Plattform erreicht erstklassige Leistung und Vielseitigkeit bei MLPerf Trainings-, Inferenz- und HPC-Benchmarks für die anspruchsvollsten, realen KI-Workloads.

Unsere Ergebnisse

Über MLPerf
Benchmarks
Unsere Ergebnisse
So funktioniert es

Über MLPerf
Benchmarks
Unsere Ergebnisse
So funktioniert es

Was ist MLPerf?

Die MLPerf™-Benchmarks – entwickelt von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft – sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Sie werden alle unter festgelegten Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.

Die Technische Hochschule Chalmers, eine der führenden Forschungseinrichtungen in Schweden, ist auf mehrere Bereiche von der Nanotechnologie bis zur Klimaforschung spezialisiert. Seit wir für unsere Forschungsbemühungen KI nutzen, konnten wir feststellen, dass der MLPerf-Benchmark einen transparenten und sinnvollen Vergleich über mehrere KI-Plattformen hinweg ermöglicht und die tatsächliche Leistung in verschiedenen realen Anwendungsfällen widerspiegelt.

– Technische Universität Chalmers, Schweden

TSMC fördert die Spitzentechnologie der globalen Halbleiterfertigung, beispielsweise mit unserem neuesten 5-nm-Knoten, der marktführend in der Prozesstechnologie ist. Innovationen wie auf maschinellem Lernen basierende Lithographie und Ätzverfahren verbessern die Genauigkeit unserer Korrektur des optischen Naheffekts (Optical Proximity Correction, OPC) und der Ätzungssimulation dramatisch. Um das Potenzial des maschinellen Lernens bei Modelltraining und Inferenz voll auszuschöpfen, arbeiten wir mit dem NVIDIA-Entwicklungsteam zusammen, um unsere Maxwell-Simulations- und ILT-Engine (Inverse Lithography Technology) auf GPUs zu portieren und somit signifikante Beschleunigungen zu erzielen. Der MLPerf-Benchmark ist für uns ein wichtiger Faktor bei der Entscheidungsfindung.

– Dr. Danping Peng, Direktor, OPC-Abteilung, TSMC, San José, Kalifornien, USA

Computer Vision und Bildgebung stehen im Mittelpunkt der KI-Forschung, sind Triebfeder der wissenschaftlichen Entdeckung und stellen Kernkomponenten der medizinischen Versorgung dar. Wir konnten in enger Zusammenarbeit mit NVIDIA Innovationen wie 3D U-Net für den Gesundheitssektor umsetzen. MLPerf-Benchmarks sind der Industriestandard und liefern relevante Leistungsdaten, wodurch sie IT-Organisationen und Entwicklern helfen, die richtige Lösung für die Beschleunigung ihrer spezifischen Projekte und Anwendungen zu finden.

— Prof. Dr. Klaus Maier-Hein (Leiter des Abteilungsbereichs Medical Image Computing, Deutsches Krebsforschungszentrum (DKFZ)

Als Marktführer im Bereich Forschung und Fertigung nutzt Samsung KI, um die Produktleistung und die Produktivität in der Fertigung deutlich zu steigern. Um diese KI-Fortschritte in der Produktion nutzen zu können, benötigen wir die beste erhältliche Computerplattform. Der MLPerf-Benchmark optimiert unseren Auswahlprozess, indem er uns eine offene, direkte Evaluationsmethode zur Verfügung stellt, mit der wir verschiedene Plattformen einheitlich bewerten können.

— Samsung Electronics

Folie 1
Folie 2
Folie 3
Folie 3

Innerhalb der MLPerf-Benchmarks

MLPerf Inference v4.1 misst die Inferenzleistung auf neun verschiedenen Benchmarks, darunter mehrere große Sprachmodelle (LLMs), Text-zu-Bild, Verarbeitung natürlicher Sprache, Empfehlungen, Computer Vision und Segmentierung medizinischer Bilder.

MLPerf Training v4.1 misst die Zeit für das Trainieren auf sieben verschiedenen Benchmarks, darunter LLM-Vortraining, LLM-Feinabstimmung, Text-zu-Bild, neuronales Graphen-Netzwerk (Graph Neural Network, GNN), Computer Vision, Empfehlung und Verarbeitung natürlicher Sprache.

MLPerf HPC v3.0 misst die Trainingsleistung in vier verschiedenen wissenschaftlichen Computing-Anwendungsfällen, einschließlich der Identifizierung von klimatisch-atmosphärischen Flüssen, der Vorhersage kosmologischer Parameter, der quantenmolekularen Modellierung und der Proteinstrukturvorhersage.

Große Sprachmodelle

Deep-Learning-Algorithmen, die mit umfangreichen Datensätzen trainiert wurden und in der Lage sind, Inhalte für eine Vielzahl von Anwendungsfällen zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren.
Details.

Text-to-Image

Erzeugt Bilder aus Text-Prompts.
Details.

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln wie beispielsweise Produkte oder Anzeigen analysiert werden.
Details.

Objekterkennung (leicht)

Sucht nach Instanzen von Objekten aus der realen Welt, wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos, und gibt jeweils einen Begrenzungsrahmen an.
Details.

Neuronales Netzwerk für Graphen

Verwendet neuronale Netze, die für die Arbeit mit als Graphen strukturierten Daten entwickelt wurden.
Details.

Bildklassifikation

Weist einem Eingabebild ein Label aus einem festgelegten Satz von Kategorien zu, beispielsweise bei Computer-Vision-Problemen.
Details.

Verarbeitung natürlicher Sprache (NLP)

Versteht Text, indem die Beziehung zwischen verschiedenen Wörtern in einem Textblock verwendet wird. Ermöglicht die Beantwortung von Fragen, die Satzparaphrasierung und viele andere sprachbezogene Anwendungsfälle.
Details.

Biomedizinische Bildsegmentierung

Führt die volumetrische Segmentierung dichter 3D-Bilder für medizinische Anwendungsfälle durch.
Details.

Identifikation klimatisch-atmosphärischer Flüsse

Identifiziert Hurrikane und atmosphärische Flüsse in Klimasimulationsdaten.
Details.

Vorhersage kosmologischer Parameter

Löst ein 3D-Bildregressionsproblem auf kosmologischen Daten.
Details.

Quantenmolekulare Modellierung

Vorhersage von Energien oder molekularen Konfigurationen.
Details.

Proteinstrukturvorhersage

Prognostiziert die dreidimensionale Proteinstruktur basierend auf der eindimensionalen Aminosäurekonnektivität.
Details.

NVIDIA MLPerf-Benchmark-Ergebnisse

Schulungen
Inferenz
HPC

Die NVIDIA HGX™ B200-Plattform, mit der Leistung von NVIDIA Blackwell GPUs, NVLink™ der fünften Generation und dem neuesten NVLink-Switch, hat in MLPerf Training v4.1 einen weiteren großen Sprung für das LLM-Training erzielt. Durch unermüdliches Full-Stack-Engineering im Rechenzentrumsmaßstab verschiebt NVIDIA weiterhin die Grenzen der generativen KI-Trainingsleistung und beschleunigt die Erstellung und Anpassung immer leistungsfähigerer KI-Modelle.

NVIDIA Blackwell bringt das LLM-Training auf ein neues Level

Ergebnisse von MLPerf™ Training v4.1 von http://www.mlcommons.org am 13. November 2024 aus den folgenden Einträgen: 4.1-0060 (HGX H100, 2024, 512 GPUs) in der Kategorie „Verfügbar“, 4.1-0082 (HGX B200, 2024, 64 GPUs) in der Kategorie „Vorschau“. Ergebnisse von MLPerf™ Training v3.0, verwendet für HGX H100 (2023, 512 GPUs), abgerufen aus Eintrag 3.0-2069. Ergebnis von HGX A100 mit 512 GPUs, nicht von der MLCommons Association verifiziert. Die normalisierte Leistung pro GPU ist keine primäre Metrik von MLPerf™ Training. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter http://www.mlcommons.org.

NVIDIA liefert weiterhin die höchste Leistung in großem Maßstab

Die NVIDIA-Plattform, die von NVIDIA Hopper™-GPUs, NVLink der vierten Generation mit NVSwitch™ der dritten Generation und Quantum-2 InfiniBand unterstützt wird, zeigte in MLPerf Training v4.1 erneut unübertroffene Leistung und Vielseitigkeit. NVIDIA lieferte in allen sieben Benchmarks die höchste Leistung in großem Maßstab.

Leistung in maximaler Größe

Benchmark	Time to Train	Number of GPUs
LLM (GPT-3 175B)	3.4 minutes	11,616
LLM Fine-Tuning (Llama 2 70B-LoRA)	1.2 minutes	1,024
Text-to-Image (Stable Diffusion v2)	1.4 minutes	1,024
Graph Neural Network (R-GAT)	0.9 minutes	512
Recommender (DLRM-DCNv2)	1.0 minutes	128
Natural Language Processing (BERT)	0.1 minutes	3,472
Object Detection (RetinaNet)	0.8 minutes	2,528

Ergebnisse MLPerf™ Training v4.1, wurden am 13. November 2024 von https://mlcommons.org aus den folgenden Einträgen abgerufen: 4.1-0012, 4.1-0054, 4.1-0053, 4.1-0059, 4.1-0055, 4.10058, 4.1-0056. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Bei ihrem Debüt mit MLPerf Inference lieferte die NVIDIA Blackwell-Plattform mit dem NVIDIA Quasar Quantization System eine bis zu 4-mal höhere LLM-Leistung im Vergleich zur H100 Tensor Core GPU der vorherigen Generation. Unter den verfügbaren Lösungen lieferte der NVIDIA H200 Tensor Core GPU, der auf der NVIDIA Hopper-Architektur basiert, die höchste Leistung pro GPU für generative KI, einschließlich aller drei LLM-Benchmarks, darunter Llama 2 70B, GPT-J und der neu hinzugefügte Mixture-of-Experts LLM, Mixtral 8x7B sowie der Text-to-Image-Benchmark Stable Diffusion XL. Durch die unermüdliche Softwareoptimierung stieg die Leistung des H200 in weniger als sechs Monaten um bis zu 27 Prozent. Für generative KI am Edge lieferte NVIDIA Jetson Orin™ hervorragende Ergebnisse, mit einer Steigerung des GPT-J-Durchsatzes um mehr als das 6-fache und einer Reduzierung der Latenz um das 2,4-fache in nur einem Durchgang.

NVIDIA Blackwell ermöglicht einen großen Sprung für LLM Inference

Server

10.756 Tokens/Sekunde
Einzelne GPU

Offline

3,7x

11.264 Tokens/Sekunde
Einzelne GPU

KI Superchip

208 B Transistoren

2. Generation Transformer-Engine

FP4/FP6 Tensor Core

5. Generation NVLINK

Skalierbar auf 576 GPUs

RAS-Engine

100 % In-System-Selbsttest

Sichere KI

Leistungsstarke Verschlüsselung und TEE

Dekompressions-Engine

800 GB/s

MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Blackwell-Ergebnisse gemessen auf einer einzelnen GPU und abgerufen von Eintrag 4.1-0074 in der Kategorie Closed, Vorschau. H100-Ergebnisse von Eintrag 4.1-0043 in der Kategorie Closed, Verfügbar auf einem 8x H100-System und geteilt durch die Anzahl der GPUs für den Vergleich pro GPU. Der Durchsatz pro GPU ist keine primäre Metrik von MLPerf Inference. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

H200 liefert außergewöhnlichen Multi-GPU-Inferenzdurchsatz bei jedem Benchmark

Benchmark	Offline	Server
Llama 2 70B	34,864 tokens/second	32,790 tokens/second
Mixtral 8x7B	59,022 tokens/second	57,177 tokens/second
GPT-J	20,086 tokens/second	19,243 tokens/second
Stable Diffusion XL	17.42 samples/second	16.78 queries/second
DLRMv2 99%	637,342 samples/second	585,202 queries/second
DLRMv2 99.9%	390,953 samples/second	370,083 queries/second
BERT 99%	73,310 samples/second	57,609 queries/second
BERT 99.9%	63,950 samples/second	51,212 queries/second
RetinaNet	14,439 samples/second	13,604 queries/second
ResNet-50 v1.5	756,960 samples/second	632,229 queries/second
3D U-Net	54.71 samples/second	Not part of benchmark

MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Alle Ergebnisse mit acht GPUs und aus den folgenden Einträgen abgerufen: 4.1-0046, 4.1-0048, 4.1-0050. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Der NVIDIA H100 Tensor Core hat die NVIDIA-Plattform für HPC und KI bei seinem Debüt in MLPerf HPC v3.0 mit einer bis zu 16-fachen Beschleunigung der Trainingszeit in nur drei Jahren und der höchsten Leistung bei allen Workloads sowohl in Bezug auf die Trainingszeit als auch auf die Durchsatzmetrik optimiert. Die NVIDIA-Plattform war auch die einzige, die Ergebnisse für jede MLPerf HPC-Workload vorlegte, die die Bereiche Klimasegmentierung, Vorhersage kosmologischer Parameter, quantenmolekulare Modellierung und die neueste Ergänzung, Proteinstrukturvorhersage, umfassen. Die unübertroffene Leistung und Vielseitigkeit der NVIDIA-Plattform macht sie zum Instrument der Wahl, um die nächste Welle KI-gestützter wissenschaftlicher Entdeckungen voranzutreiben.

Bis zu 16-mal mehr Leistung in drei Jahren

NVIDIA Full-Stack-Innovation fördert Leistungssteigerungen

Ergebnisse von MLPerf™ HPC v3.0, abgerufen von https://mlcommons.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 0.7-406, 0.7-407, 1.0-1115, 1.0-1120, 1.0-1122, 2.0-8005, 2.0-8006 , 3.0-8006, 3.0-8007, 3.0-8008. CosmoFlow-Score in v1.0 ist auf neue RCPs normalisiert, die in MLPerf HPC v2.0 eingeführt wurden Ergebnisse für v0.7, v1.0 und v2.0 sind angepasst, um die Data-Staging-Zeit aus dem Benchmark zu entfernen. Dies entspricht den neuen Regeln, die für v3.0 angenommen wurden, um faire Vergleiche zwischen den Einreichungsrunden zu ermöglichen. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Ergebnisse von MLPerf™ HPC v3.0, abgerufen von https://mlcommons.org am 8. November 2023. Ergebnisse aus den Einträgen 3.0-8004, 3.0-8009 und 3.0-8010. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Die Technologie hinter den Ergebnissen

Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – einschließlich Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.

Sehen Sie sich den NGC-Katalog an

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA-KI-Plattform lieferte führende Leistung, die von der NVIDIA Blackwell-Plattform, der Hopper-Plattform, NVLink™, NVSwitch™ und Quantum InfiniBand unterstützt wird. Diese bilden das Herzstück der NVIDIA Rechenzentrumsplattform, der Engine hinter unserer Benchmark-Leistung.

Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen.

Erfahren Sie mehr über die Rechenzentrumsplattform von NVIDIA

Erschließung generativer KI am Edge mit transformativer Leistung

NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, einen großen vereinheitlichten Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen liefern. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.

Erfahren Sie mehr über NVIDIA Jetson Orin

Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.

Leistungsdaten ansehen