Benchmarks MLPerf

La plateforme d'IA de NVIDIA atteint des records de performance et de polyvalence sur les benchmarks MLPerf Training, Inference et HPC pour les charges de travail d'IA réelles les plus exigeantes.

Qu'est-ce que MLPerf ?

Les benchmarks MLPerf™ sont développés par MLCommons, un consortium d'experts de l'IA qui rassemble des organismes universitaires, des laboratoires de recherche et des groupes industriels. Ils sont conçus pour fournir des évaluations impartiales des performances d'entraînement et d'inférence pour le matériel, les logiciels et les services. Les tests sont tous effectués selon des modalités prescrites. Pour rester à la pointe des dernières tendances du secteur, MLPerf évolue de manière ininterrompue en réalisant de nouveaux tests à intervalles réguliers et en intégrant de nouvelles charges de travail qui suivent les dernières évolutions de l'IA.

Sous le capot des benchmarks MLPerf

MLPerf Inference v4.1 mesure les performances d'inférence sur neuf benchmarks différents : plusieurs grands modèles de langage (LLM) ainsi que des modèles de texte à image, de traitement du langage naturel, des systèmes de recommandation, de vision par ordinateur et de segmentation d'images médicales.

MLPerf Training v4.0 mesure les performances d'entraînement sur neuf benchmarks différents : le pré-entraînement des LLM, l'optimisation des LLM, les capacités de texte à image, le réseau neuronal graphique (GNN), la vision par ordinateur, la segmentation d'images médicales et les systèmes de recommandation.

MLPerf HPC v3.0 mesure les performances d'entraînement sur quatre cas d'utilisation différents en matière de calcul scientifique : l'identification des rivières atmosphériques, la prédiction de paramètres cosmologiques, la modélisation moléculaire quantique et la prédiction de la structure des protéines. 

Grands modèles de langage

Algorithmes de Deep Learning entraînés sur des ensembles de données à grande échelle et capables de reconnaître, de résumer, de traduire, de prédire et de générer du contenu pour une variété de cas d'utilisation.
En savoir plus.

Texte à image

Génère des images à partir d'invites textuelles.
En savoir plus.

Systèmes de recommandation

Fournit des résultats personnalisés pour les services à destination des utilisateurs finaux, tels que les réseaux sociaux ou les sites de commerce électronique, en analysant les interactions entre les utilisateurs et les éléments de service comme les produits ou les publicités.
En savoir plus.

Détection standard d’objets

Identifie des instances d'objets concrets comme des visages, des vélos ou des bâtiments à partir d'images ou de vidéos d'entrée, puis leur assigne des cadres de délimitation.
En savoir plus.

Réseau neuronal graphique

Utilise des réseaux neuronaux conçus pour travailler avec des données structurées sous forme de graphiques.
En savoir plus.

Classification d’images

Assigne une étiquette à une image d'entrée à partir d'un ensemble prédéfini de catégories, dans différents champs d'application de la vision par ordinateur.
En savoir plus.

Traitement du langage naturel (NLP)

Comprend le contenu écrit à partir de la relation entre différents mots au sein d'un bloc de texte. Autorise des modèles de réponse aux questions, de paraphrase, et de nombreux autres cas d'utilisation linguistiques.
En savoir plus.

Segmentation d’images biomédicales

Effectue une segmentation volumétrique d'images 3D denses pour des cas d'utilisation liés à la médecine.
En savoir plus.

Identification climatique des rivières atmosphériques

Identifier les ouragans et les rivières atmosphériques dans les données de simulation climatique.
En savoir plus.

Prédiction des paramètres de cosmologie

Résoudre un problème de régression d'images 3D sur des données cosmologiques.
En savoir plus.

Modélisation moléculaire quantique

Prédire les énergies ou les configurations moléculaires.
En savoir plus.

Prédiction de la structure des protéines

Prédit la structure tridimensionnelle des protéines sur la base de la connectivité unidimensionnelle des acides aminés.
En savoir plus.

Résultats de NVIDIA sur les benchmarks MLPerf

La plateforme de calcul accéléré NVIDIA équipée de GPU NVIDIA HopperTM et de la mise en réseau NVIDIA Quantum-2 InfiniBand a réalisé les meilleures performances sur tous les benchmarks de MLPerf Training v4.0. Sur le benchmark LLM, NVIDIA a plus que triplé les performances en seulement un an, grâce à une échelle de soumission record de 11 616 GPU H100 et à des optimisations logicielles. L'entreprise a également réalisé des performances 1,8 fois supérieures sur le benchmark texte à image en seulement sept mois. Et sur les nouveaux benchmarks d'optimisation de LLM et de réseau neuronal graphique, NVIDIA a placé la barre très haut. La société a obtenu ces résultats exceptionnels grâce à une ingénierie complète et permanente à l'échelle des Data Centers.

NVIDIA établit un nouveau record d'entraînement de LLM avec la soumission MLPerf la plus importante à ce jour

Résultats MLPerfTM Training v3.1 et v4.0 recueillis depuis www.mlperf.org. le 12 juin 2024, à partir des entrées suivantes : NVIDIA + CoreWeave 3.0-2003, NVIDIA 4.0-0007. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

NVIDIA continue de réaliser les meilleures performances sur tous les tests MLPerf Training

La plateforme NVIDIA continue de démontrer des performances et une polyvalence inégalées sur MLPerf Training v4.0. NVIDIA a réalisé les meilleures performances sur les neuf benchmarks et établi de nouveaux records sur les tests suivants : LLM, optimisation de LLM, texte à image, réseau neuronal graphique et détection d'objets (standard).

Performances d'échelle maximale

Benchmark Time to Train Number of GPUs
LLM (GPT-3 175B) 3.4 minutes 11,616
LLM Fine-Tuning (Llama 2 70B-LoRA) 1.2 minutes 1,024
Text-to-Image (Stable Diffusion v2) 1.4 minutes 1,024
Graph Neural Network (R-GAT) 0.9 minutes 512
Recommender (DLRM-DCNv2) 1.0 minutes 128
Natural Language Processing (BERT) 0.1 minutes 3,472
Object Detection (RetinaNet) 0.8 minutes 2,528

Résultats de MLPerfTM Training v4.0 recueillis depuis www.mlperf.org le 12 juin 2024, à partir des entrées suivantes : NVIDIA 4.0-0058, NVIDIA 4.0-0053, NVIDIA 4.0-0007, NVIDIA 4.0-0054, NVIDIA 4.0-0053, NVIDIA + CoreWeave 4.0-0008, NVIDIA 4.0-0057, NVIDIA 4.0-0056, NVIDIA 4.0-0067. Le nom et le logo MLPerfTM sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

Lors de ses débuts sur MLPerf Inference, les performances LLM de la plate-forme NVIDIA Blackwell avec le système de quantification NVIDIA Quasar ont été jusqu'à 4 fois plus élevées que le GPU H100 Tensor Core de la génération précédente. Parmi les solutions disponibles, le GPU NVIDIA H200 Tensor Core, basé sur l'architecture NVIDIA Hopper, a fourni les performances les plus élevées par GPU pour l'IA générative, y compris sur les trois benchmarks LLM, à savoir Llama 2 70B, GPT-J et Mixtral 8x7B, le nouveau LLM MoE, ainsi que sur le benchmark de texte à image Stable Diffusion XL. Grâce à une optimisation logicielle permanente, les performances de H200 ont augmenté de 27 % en moins de six mois. Pour l'IA générative à l'Edge, NVIDIA Jetson Orin™ a donné des résultats exceptionnels, en multipliant le débit de GPT-J par plus de 6 et en divisant la latence par 2,4 en une seule instance.

NVIDIA Blackwell représente un pas de géant en matière d'inférence LLM

Serveur

4X

Hors ligne

3.7X

AI Superchip

208 milliards de transistors

Moteur de transformation de 2ᵉ génération

FP4/FP6 Tensor Core

NVLINK de 5e génération

Extension jusqu'à 576 GPU

Moteur de RAS

Auto-test dans le système à 100 %

IA sécurisée

Cryptage et TEE hautes performances

Moteur de décompression

800 Go/s


MLPerf Inference v4.1 Closed, Data Center. Résultats recueillis depuis www.mlperf.org le 28 août 2024. Résultats Blackwell mesurés sur un seul GPU et recueillis à partir de l'entrée 4.1-0074 dans la catégorie Closed, Preview. Résultats H100 de l'entrée 4.1-0043 dans la catégorie Closed, Available sur un système à huit H100 et divisé par le nombre de GPU pour la comparaison par GPU. Le débit par GPU n'est pas une mesure primaire de MLPerf Inference. Le nom et le logo MLPerf sont des marques déposées et non déposées de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

H200 fournit un débit d'inférence multi-GPU exceptionnel sur chaque benchmark

Benchmark Offline Server
Llama 2 70B 34,864 tokens/second 32,790 tokens/second
Mixtral 8x7B 59,022 tokens/second 57,177 tokens/second
GPT-J 20,086 tokens/second 19,243 tokens/second
Stable Diffusion XL 17.42 samples/second 16.78 queries/second
DLRMv2 99% 637,342 samples/second 585,202 queries/second
DLRMv2 99.9% 390,953 samples/second 370,083 queries/second
BERT 99% 73,310 samples/second 57,609 queries/second
BERT 99.9% 63,950 samples/second 51,212 queries/second
RetinaNet 14,439 samples/second 13,604 queries/second
ResNet-50 v1.5 756,960 samples/second 632,229 queries/second
3D U-Net 54.71 samples/second Not part of benchmark



MLPerf Inference v4.1 Closed, Data Center. Résultats recueillis depuis www.mlperf.org le 28 août 2024. Tous les résultats utilisent huit GPU et ont été recueillis à partir des entrées suivantes : 4.1-0046, 4.1-0048, 4.1-0050. Le nom et le logo MLPerf sont des marques déposées et non déposées de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

Le NVIDIA H100 Tensor Core a boosté la plate-forme NVIDIA pour le HPC et l'IA lors de son premier benchmark sur MLPerf HPC v3.0. Il a permis de diviser par jusqu'à 16 le temps de formation en seulement trois ans et offre les meilleures performances sur toutes les charges de travail, à la fois pour les indicateurs de temps d'entrainement et de débit. La plateforme NVIDIA a également été la seule à soumettre des résultats pour chaque charge de travail MLPerf HPC, à savoir la segmentation climatique, la prédiction des paramètres cosmologiques, la modélisation moléculaire quantique et la dernière addition, à savoir la prédiction de la structure des protéines. Les performances et la polyvalence inégalées de la plate-forme NVIDIA en font l'outil de choix pour donner naissance à la prochaine vague de découvertes scientifiques basées sur l'IA.

Jusqu'à 16 fois plus de performances en trois ans

L'innovation complète de NVIDIA est à l'origine des gains de performance

Résultats de MLPerfTM HPC v3.0 recueillis depuis www.mlperf.org le 8 novembre 2023. Résultats recueillis à partir des entrées 0.7-406, 0.7-407, 1.0-1115, 1.0-1120, 1.0-1122, 2.0-8005, 2.0-8006, 3.0-8006, 3.0-8007, 3.0-8008. Le score de CosmoFlow en v1.0 est normalisé aux nouveaux RCP introduits dans MLPerf HPC v2.0. Les scores pour les v0.7, v1.0 et v2.0 sont ajustés pour supprimer du benchmark le temps de mise en scène des données, conformément aux nouvelles règles adoptées pour la v3.0 afin de permettre des comparaisons équitables entre les différentes soumissions. Le nom et le logo MLPerfTM sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

 

Résultats de MLPerfTM HPC v3.0 recueillis depuis www.mlperf.org le 8 novembre 2023. Résultats recueillis à partir des entrées 3.0-8004, 3.0-8009 et 3.0-8010. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.orgpour en savoir plus.

La technologie à l’œuvre derrière les résultats

La complexité de l'IA exige une intégration étroite entre tous les aspects de la plateforme. Comme le prouvent les benchmarks MLPerf, la plateforme d'IA de NVIDIA offre des performances inégalées grâce au GPU le plus sophistiqué au monde, à des technologies d'interconnexion puissantes et évolutives et à des logiciels de pointe. Une solution de bout en bout qui peut être déployée dans le Data Center, dans le Cloud ou à l'Edge, pour des résultats époustouflants.

Environnement logiciel optimisé pour accélérer les workflows d'IA

Composant essentiel de la plateforme de NVIDIA et facteur déterminant pour expliquer les résultats obtenus avec MLPerf, le catalogue NGC™ est un outil d'IA, de HPC et d'analyse de données optimisé par GPU qui simplifie et accélère les workflows de bout en bout. NGC permet aux data scientists, aux chercheurs et aux développeurs de créer des solutions de pointe, de récolter des informations et de générer de la valeur ajoutée à une vitesse sans précédent, et ce, grâce à plus de 150 conteneurs de qualité professionnelle, y compris des charges de travail pour l'IA générative, l'IA conversationnelle et les systèmes de recommandation, des centaines de modèles d'IA et des kits de développement logiciel spécifiques à des secteurs donnés et pouvant être déployés sur site, dans le Cloud ou à l'Edge.

Une infrastructure d'IA de premier ordre

L'obtention des meilleurs résultats au monde pour l'entraînement et l'inférence nécessite une infrastructure spécifiquement conçue pour répondre aux défis les plus complexes au monde en matière d'IA. La plateforme d'IA de NVIDIA a fourni des performances de pointe grâce à la plateforme NVIDIA Blackwell, la plateforme Hopper, NVLink™, NVSwitch™ et Quantum InfiniBand, tous au cœur de la plateforme de Data Center NVIDIA, elle-même moteur de nos performances sur les benchmarks.

En outre, les systèmes NVIDIA DGXGX™ offrent l'évolutivité, la rapidité de déploiement et la puissance de calcul incroyable qui permettent à chaque entreprise de construire une infrastructure d'IA de premier plan. 

Libérer l'IA générative à l'Edge grâce à des performances exceptionnelles

NVIDIA Jetson Orin offre des capacités de calcul IA sans précédent, une grande mémoire unifiée et des piles logicielles complètes, le tout avec une efficacité énergétique hors pairs afin de permettre les applications d'IA générative les plus récentes. Son architecture de transformation autorise une inférence rapide de n'importe quel modèle d'IA générative : pour des performances de pointe à l'Edge sur le benchmark MLPerf.

En savoir plus sur nos performances d'entrainement et d'inférence de Data Center.

Grands modèles de langage

MLPerf Training utilise le modèle de langage génératif GPT-3 avec 175 milliards de paramètres et une longueur de séquence de 2 048 sur l'ensemble de données C4 pour la charge de travail de pré-entrainement de LLM. Il utilise le modèle Llama 2 70B avec l'ensemble de données GovReport et une longueur de séquence de 8 192 pour le test d'optimisation de LLM.

MLPerf Inference utilise le modèle Llama 2 70B avec l'ensemble de données OpenORCA, le modèle Mixtral 8x7B avec les ensembles de données OpenORCA, GSM8K et MBXP, et le modèle GPT-J avec l'ensemble de données CNN-DailyMail.

Texte à image

MLPerf Training utilise le modèle de texte à image Stable Diffusion v2, entraîné sur un ensemble de données LAION-400M-filtered.

MLPerf Inference utilise le modèle de texte à image Stable Diffusion XL (SDXL) avec un sous-ensemble de 5 000 invites issues de l'ensemble de données coco-val-2014. 

Systèmes de recommandation

MLPerf Training et Inference utilisent DLRMv2 (Deep Learning Recommendation Model v2), qui exploite DCNv2 multi-couches ainsi qu'un ensemble de données multi-hôtes synthétisé à partir de l'ensemble de données Criteo.

Détection standard d’objets

MLPerf Training utilise un modèle Single-Shot Detector (SSD) avec une base ResNeXt50 sur un sous-ensemble de l'ensemble de données Google OpenImages.

Réseau neuronal graphique

MLPerf Training utilise R-GAT avec l'ensemble de données hétérogènes Illinois Graph Benchmark (IGB).

Classification d’images

MLPerf Training et Inference utilisent ResNet v1.5 avec l'ensemble de données ImageNet.

Traitement du langage naturel (NLP)

MLPerf Training utilise BERT (Bidirectional Encoder Representations from Transformers) sur l'ensemble de données Wikipedia 2020/01/01.

MLPerf Inference utilise BERT avec l'ensemble de données SQuAD v.1.1.

Segmentation d’images biomédicales

MLPerf Training et Inference utilisent 3D U-Net avec l'ensemble de données KiTS19.

Identification climatique des rivières atmosphériques

Utilise le modèle DeepCAM avec un ensemble de données de simulation CAM5 + TECA.

Prédiction des paramètres de cosmologie

Utilise le modèle CosmoFlow avec l'ensemble de données de simulation CosmoFlow N-body.

Modélisation moléculaire quantique

Utilise le modèle DimeNet++ avec l'ensemble de données Open Catalyst 2020 (OC20).

Prédiction de la structure des protéines

Utilise le modèle OpenFold entrainé sur l'ensemble de données OpenProteinSet.