Solutions d'inférence IA

Plateforme d'inférence NVIDIA

Alimentez les usines d'IA les plus performantes, efficientes et rentables.

Démarrer

Lire les séries | Benchmarks de performance | Pour les développeurs

Aperçu
Performances
Avantages
ROI
Plateforme
Études de cas
Ressources
Étapes suivantes

Aperçu
Performances
Avantages
ROI
Plateforme
Études de cas
Ressources
Étapes suivantes

Démarrer

Aperçu

Quel est le moyen intelligent de faire évoluer l'IA au moindre coût ?

L'inférence d'IA, c'est-à-dire la façon dont nous expérimentons l'IA via des chatbots, des copilotes et des outils créatifs, évolue à un rythme exponentiel double. L'adoption par les utilisateurs s'accélère, tandis que les jetons d'IA générés par interaction, basés sur des workflows agentiques, un raisonnement à long terme et des modèles Mixture-of-Experts (MoE), s'envolent.

Pour permettre une inférence de cette ampleur, NVIDIA fournit une architecture à l'échelle des centres de données sur un rythme annuel. Notre conception conjointe matérielle et logicielle poussée améliore les performances du même ordre de grandeur, réduit le coût par jeton et génère plus de revenus et de profits.

NVIDIA Blackwell NVL72 offre des performances d'inférence plus de 10 fois supérieures à NVIDIA H200 sur une large gamme de modèles MoE, notamment Kimi K2 Thinking, DeepSeek-R1 et Mistral Large 3.

Extreme Codesign offre 1/10e du coût avec NVLink pour les modèles Mixture of Experts (MoE)

En traitant dix fois plus de jetons en utilisant le même temps et la même énergie, le coût par jeton diminue considérablement, permettant de déployer des Mixture-of-Experts (MoE) dans des produits de tous les jours. C'est ainsi que l'intelligence de pointe devient la norme.

Lire l'article

NVIDIA Blackwell établit la norme en matière de retour sur investissement de l'inférence

NVIDIA Blackwell a balayé les nouveaux benchmarks SemiAnalysis InferenceMAX™ v1, atteignant les performances d'inférence d'IA les plus élevées et la meilleure efficacité globale. NVIDIA Blackwell permet les revenus les plus élevés pour les usines d'IA : un investissement de 5 millions de dollars dans GB200 NVL72 génère 75 millions de dollars de revenus en jetons, soit un retour sur investissement multiplié par 15.

Découvrez les principaux résultats

NVIDIA Blackwell NVL72 pour le coût par jeton le plus bas

NVIDIA Blackwell permet d'obtenir les revenus les plus élevés pour les usines d'IA, notamment un retour sur investissement jusqu'à 15 fois supérieur. Ce résultat est le fruit d'une conception conjointe poussée entre NVIDIA Blackwell, NVLink™ et NVLink Switch pour l'évolutivité, NVFP4 pour la précision à faible précision, NVIDIA Dynamo et TensorRT™-LLM pour la vitesse et la flexibilité, ainsi que le développement avec les frameworks communautaires SGLang, vLLM et bien d'autres encore.

Un investissement de 5 millions de dollars dans GB200 NVL72 peut générer des revenus de jetons de 75 millions de dollars

Cliquez pour agrandir l'image

Les résultats de DeepSeek-R1 8K/1K montrent un avantage de performances multiplié par 15 et une opportunité de revenus pour NVIDIA Blackwell GB200 NVL72 par rapport à Hopper H200.

Avantages

Découvrez les avantages de Think SMART

La plateforme d'inférence NVIDIA offre de nombreux avantages intégrés dans le framework Think SMART : l'échelle et l'efficacité, les performances multidimensionnelles, la conception d'architecture et de logiciel conjointe, un retour sur investissement axé sur les performances et un écosystème technologique étendu.

Maximisez les performances

NVIDIA Blackwell offre des performances de pointe dans divers cas d'utilisation, en équilibrant efficacement plusieurs dimensions : débit, latence, intelligence, coût et rendement énergétique. Pour les modèles intelligents mixture-of-experts tels que Kimi K2 Thinking, DeepSeek-R1 et Mistral Large 3, les utilisateurs peuvent atteindre des performances jusqu'à 10 fois plus rapides sur NVIDIA Blackwell NVL72 par rapport à H200.

Réduction des coûts par jeton

NVIDIA Blackwell NVL72 offre 1/10e du coût par jeton pour les modèles MoE. Les performances sont le plus grand levier pour réduire le coût par jeton et maximiser les revenus d'IA. En traitant dix fois plus de jetons en utilisant le même temps et la même énergie, le coût par jeton diminue considérablement, permettant de déployer des Mixture-of-Experts (MoE) dans des produits de tous les jours.

Évoluez efficacement

Grâce à une innovation complète en matière de calcul, de mise en réseau et de logiciels, NVIDIA vous permet de faire évoluer efficacement des déploiements d'IA complexes.

Intégrez facilement

NVIDIA fournit une plateforme éprouvée avec une base installée de centaines de millions de GPU CUDA®, 7 millions de développeurs, des contributions à plus de 1 000 projets open-source et des intégrations de framework approfondies avec des frameworks tels que PyTorch, JAX, SGLang, vLLM et bien d'autres

ROI

Les performances stimulent la rentabilité

Plus votre système peut générer des jetons rapidement tout en offrant une expérience utilisateur fluide, plus vous pouvez faire de revenus avec la même empreinte énergétique et financière. NVIDIA Blackwell génère 75 millions de dollars de revenus pour chaque 5 millions de dollars de CAPEX dépensés, soit un retour sur investissement 15 fois supérieur.

Plateforme

Conception conjointe matérielle-logicielle poussée

Un matériel puissant sans orchestration intelligente gaspille du potentiel, tandis qu'un logiciel de qualité sans matériel rapide délivre des performances d'inférence. L'innovation complète de NVIDIA en matière de calcul, de mise en réseau et de logiciels offre les performances les plus élevées pour diverses charges de travail. Découvrez certaines des principales innovations matérielles et logicielles de NVIDIA.

NVIDIA Grace Blackwell NVL72

En fournissant 1,4 exaFLOPS dans un seul rack, le NVIDIA GB200 NVL72 unifie 72 GPU NVIDIA Blackwell avec NVIDIA NVLink™ et NVSwitch™ pour déployer des modèles de raisonnement massifs à grande échelle tout en diminuant par 10 les coûts de jetons

En savoir plus sur GB200 NVL72

NVIDIA Blackwell

Le NVIDIA HGX™ B200, basé sur l'architecture NVIDIA Blackwell, comprend 8 GPU NVIDIA Blackwell connectés par NVSwitch ultra-rapide. Il offre des performances d'inférence d'IA élevées et une efficacité énergétique pour l'inférence d'IA à grande échelle.

En savoir plus sur la plateforme NVIDIA B200 HGX

NVIDIA Dynamo

NVIDIA Dynamo est un framework de service d'inférence distribué dédié au déploiement des modèles dans des environnements multi-nœuds à l'échelle d'une usine d'IA. Il rationalise le traitement distribué en désagrégant l'inférence, en optimisant le routage et en étendant la mémoire via la mise en cache des données vers des couches de stockage rentables.

En savoir plus sur NVIDIA Dynamo

TensorRT LLM

TensorRT™-LLM est une bibliothèque open source pour une inférence LLM hautes performances en temps réel sur les GPU NVIDIA. Grâce à un environnement d'exécution Python modulaire, à la création native de PyTorch et à une API de production stable, il est optimisé pour maximiser le débit, minimiser les coûts et fournir des expériences utilisateur rapides.

En savoir plus sur TensorRT-LLM

Matériel

Explorez notre infrastructure d'inférence IA

Bénéficiez de performances d'IA inégalées avec le logiciel d'inférence d'IA NVIDIA optimisé pour l'infrastructure accélérée par NVIDIA. Les technologies NVIDIA Blackwell Ultra, le GPU H200, NVIDIA RTX PRO™ 6000 Blackwell Server Edition et NVIDIA RTX™ fournissent une vitesse et une efficacité exceptionnelles pour les charges de travail d'inférence d'IA dans les centres de données, les nuages et les stations de travail.

NVIDIA GB300 NVL72

La demande en matière d'inférence d'IA est en forte hausse, et NVIDIA Blackwell Ultra est conçu pour répondre à cette demande. Avec une puissance de calcul de 1,4 exaFLOPS dans un seul rack, le NVIDIA GB300 NVL72 regroupe 72 GPU NVIDIA Blackwell Ultra avec NVIDIA NVLink™ et NVFP4 pour alimenter des modèles massifs avec une efficacité extrême, multipliant par 50 la production de l'usine d'IA tout en réduisant les coûts des jetons et en accélérant le raisonnement en temps réel à grande échelle.

En savoir plus sur GB300 NVL72

GPU NVIDIA H200

Le GPU NVIDIA H200, qui fait partie de la plateforme NVIDIA Hopper, booste les charges de travail d'IA générative et de calcul haute performance (HPC) grâce à des performances et à des capacités de mémoire révolutionnaires. En tant que premier GPU avec HBM3e, la mémoire plus grande et plus rapide du H200 alimente l’accélération de l’IA générative et des grands modèles de langage (LLM) tout en faisant progresser le calcul scientifique pour les charges de travail HPC.

En savoir plus sur H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

Le GPU RTX PRO 6000 Blackwell Server Edition offre des performances d'inférence suralimentées sur une large gamme de modèles d'IA, atteignant des performances jusqu'à 5 fois supérieures pour les applications d'IA générative et agentique à l'échelle de l'entreprise par rapport à la génération précédente NVIDIA L40S. Les serveurs NVIDIA RTX PRO™, disponibles auprès de partenaires système mondiaux, offrent les performances et l'efficacité de l'architecture Blackwell à tous les centres de données d'entreprise.

En savoir plus sur RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

La RTX PRO 6000 Blackwell Workstation Edition est le premier GPU de bureau à offrir 96 Go de mémoire GPU. La puissance de l'architecture GPU Blackwell, associée à une mémoire GPU importante et à la pile logicielle NVIDIA AI, permet aux stations de travail équipées de RTX PRO d'offrir une accélération incroyable pour l'IA générative et l'inférence LLM directement sur le bureau.

En savoir plus sur RTX PRO 6000 Blackwell Workstation Edition

Décodage des performances Paretos

Vous êtes-vous déjà demandé comment les compromis complexes en matière d'IA se traduisent en résultats réels ? Découvrez différents points sur les courbes de performance ci-dessous pour vous rendre compte comment la conception conjointe matérielle et logicielle poussée fait de NVIDIA Blackwell Ultra le choix le plus performant, le plus efficace et le plus rentable.

TPS / utilisateur

–

TPS / MW

–

Expérience de chat simulée

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 avec désagrégation FP4 Dynamo. H100 avec regroupement FP8 en vol. Performances projetées sujettes à modification.

Vous vous demandez comment chaque configuration se traduit par une expérience utilisateur réelle ? Explorez les courbes seul ou avec l'aide de TJ en cliquant sur « Explorer avec TJ » et voyez-les prendre vie dans le chat simulé à droite.

Explore More with NVIDIA Dynamo AI Configurator

Études de cas

Comment les leaders du secteur stimulent l'innovation avec l'inférence de l'IA

Autres études de cas

Amdocs

Accélérer les performances de l'IA générative et réduire les coûts

Découvrez comment Amdocs a créé amAIz, une plateforme d'IA générative spécifique à un domaine pour les entreprises de télécommunications, en utilisant les microservices d'inférence NVIDIA DGX™ Cloud et NVIDIA NIM pour améliorer la latence, améliorer la précision et réduire les coûts.

Lire l'étude de cas

Snapchat

Améliorer les achats avec l’IA

Découvrez comment Snapchat a amélioré l'expérience d'achat de vêtements et la reconnaissance optique de caractères à l'aide de Triton Inference Server pour évoluer, réduire les coûts et accélérer le délai de production.

Lire l'étude de cas

Amazon

Accélérer la satisfaction client

Découvrez comment Amazon a amélioré la satisfaction de ses clients en accélérant son inférence 5 fois plus vite avec TensorRT.

Lire l'étude de cas

Ressources

Découvrez nos ressources les plus récentes sur l'IA

Articles de blog
Sessions
Formation
Vidéos

Voir plus de sessions

Démarrez avec l’inférence sur NVIDIA LaunchPad

Votre projet d’IA est en cours ? Postulez pour acquérir une expérience pratique en matière de test et de prototypage de vos solutions d’IA.

Postuler

Parcours d’apprentissage en IA générative et LLM

Améliorez vos compétences techniques en IA générative et en modèles de langage à grande échelle grâce à nos parcours d'apprentissage complets.

Découvrir

Démarrez avec l'inférence de l'IA générative sur NVIDIA LaunchPad

Accélérez votre parcours en IA générative avec un accès gratuit, immédiat et à court terme aux microservices d'inférence NVIDIA NIM et aux modèles d'IA.

Démarrer

Voir plus de formations

Voir d'autres vidéos

Étapes suivantes

Vous souhaitez vous lancer?

Découvrez tout ce dont vous avez besoin pour commencer à développer votre application d'IA, y compris la documentation, les didacticiels et les articles techniques les plus récents, et plus encore.

Commencez à développer Commencer à développer

Trouvez le matériel adapté pour vos charges de travail d'inférence.

Les solutions NVIDIA pour Data Center sont disponibles auprès de certains fournisseurs du Réseau de partenaires NVIDIA (NPN). Découvrez les options flexibles et abordables qui vous permettront d’accéder aux dernières technologies Data Center de NVIDIA grâce à notre réseau de partenaires.

Accéder au NVIDIA Marketplace

Découvrez les dernières actualités sur l'inférence de l'IA de NVIDIA

Inscrivez-vous pour recevoir les informations et mises à jour les plus récentes de NVIDIA sur l'IA, et plus encore.

Restez informés

TPS / utilisateur

–

TPS / MW

–

Expérience de chat simulée

Plateforme d'inférence NVIDIA

Aperçu

Quel est le moyen intelligent de faire évoluer l'IA au moindre coût ?

Extreme Codesign offre 1/10e du coût avec NVLink pour les modèles Mixture of Experts (MoE)

NVIDIA Blackwell établit la norme en matière de retour sur investissement de l'inférence

NVIDIA Blackwell NVL72 pour le coût par jeton le plus bas

Un investissement de 5 millions de dollars dans GB200 NVL72 peut générer des revenus de jetons de 75 millions de dollars

Avantages

Découvrez les avantages de Think SMART

Maximisez les performances

Réduction des coûts par jeton

Évoluez efficacement

Intégrez facilement

ROI

Plateforme

Conception conjointe matérielle-logicielle poussée

NVIDIA Grace Blackwell NVL72

NVIDIA Blackwell

NVIDIA Dynamo

TensorRT LLM

Matériel

Explorez notre infrastructure d'inférence IA

NVIDIA GB300 NVL72

GPU NVIDIA H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

Décodage des performances Paretos

Études de cas

Comment les leaders du secteur stimulent l'innovation avec l'inférence de l'IA

Accélérer les performances de l'IA générative et réduire les coûts

Améliorer les achats avec l’IA

Accélérer la satisfaction client

Ressources

Découvrez nos ressources les plus récentes sur l'IA

Démarrez avec l’inférence sur NVIDIA LaunchPad

Parcours d’apprentissage en IA générative et LLM

Démarrez avec l'inférence de l'IA générative sur NVIDIA LaunchPad

Étapes suivantes

Vous souhaitez vous lancer?

Trouvez le matériel adapté pour vos charges de travail d'inférence.

Découvrez les dernières actualités sur l'inférence de l'IA de NVIDIA

Suivez l’actualité de NVIDIA dans le domaine de l'IA