Inférence IA

NVIDIA Dynamo

Faites évoluer et traitez rapidement l'IA générative.

Commencer

Lire le communiqué de presse | Lire l'article technique

Aperçu
Caractéristiques
Avantages
Options de démarrage
Cas utilisation
Témoignages clients
Ressources
Prochaines étapes

Aperçu

Aperçu
Caractéristiques
Avantages
Options de démarrage
Cas utilisation
Témoignages clients
Ressources
Prochaines étapes

Commencer

Aperçu

Inférence distribuée à faible latence
pour l'IA générative

NVIDIA Dynamo est un framework d'inférence modulaire open source pour traiter des modèles d'IA générative dans des environnements distribués. Elle permet de faire évoluer facilement les charges de travail d'inférence sur de grandes flottes de GPU grâce à une planification dynamique des ressources, à un routage intelligent des demandes, à une gestion optimisée de la mémoire et à un transfert de données accéléré.

En exploitant le modèle de raisonnement open source DeepSeek-R1 671B sur NVIDIA GB200 NVL72, NVIDIA Dynamo a multiplié par 30 le nombre de demandes traitées, ce qui en fait la solution idéale pour les usines d'IA qui cherchent à exploiter au coût le plus bas possible afin de maximiser la génération de revenus symboliques.

NVIDIA Dynamo prend en charge tous les principaux backends d'inférence de l'IA et propose des optimisations spécifiques aux grands modèles linguistiques (LLM), telles que la distribution désagrégée, accélérant et faisant évoluer les modèles de raisonnement de l'IA au coût le plus bas et avec la plus grande efficacité. Elle sera prise en charge dans le cadre de NVIDIA AI Enterprise dans une future version.

Qu'est-ce que l'inférence distribuée ?

L'inférence distribuée est le processus d'exécution de l'inférence des modèles d'IA sur plusieurs appareils ou nœuds de calcul afin de maximiser le débit en parallélisant les calculs.

Cette approche permet une mise à l'échelle efficace des applications d'IA à grande échelle, telles que l'IA générative, en distribuant les charges de travail sur des GPU ou une infrastructure Cloud. L'inférence distribuée améliore les performances globales et l'utilisation des ressources en permettant aux utilisateurs d'optimiser la latence et le débit pour les exigences uniques de chaque charge de travail.

Fonctionnalités

Découvrez les fonctionnalités de NVIDIA Dynamo

Traitement désagrégé

Sépare les phases de contexte (pré-remplissage) et de génération (décodage) des LLM sur différents GPU, permettant un parallélisme de modèles personnalisés et une allocation indépendante des GPU pour augmenter les demandes traitées par GPU.

Planificateur de GPU

Surveille la capacité des GPU dans les environnements d'inférence distribués et alloue dynamiquement les travailleurs des GPU en fonction du contexte et des phases de génération afin de résoudre les goulets d'étranglement et d'optimiser les performances.

Routeur intelligent

Acheminez efficacement le trafic d'inférence, minimisant les calculs répétés coûteux des demandes identiques ou en chevauchement afin de préserver les ressources de calcul tout en garantissant une distribution de charge équilibrée sur les grandes flottes de GPU.

NIXL Bibliothèque de communication à faible latence

Accélère le mouvement des données dans les paramètres d'inférence distribués tout en simplifiant les complexités de transfert sur divers matériels, notamment les GPU, les CPU, les réseaux et le stockage.

Avantages

Les avantages de NVIDIA Dynamo

Passez facilement d'un GPU à des milliers de GPU

Simplifiez et automatisez la configuration des clusters de GPU avec des outils préconstruits et faciles à déployer et permettez une auto-mise à l'échelle dynamique avec des métriques spécifiques aux LLM en temps réel, évitant ainsi le sur-ou le sous-approvisionnement des ressources GPU.

Augmentez la capacité de traitement d'inférence tout en réduisant les coûts

Tirez parti des optimisations avancées de traitement d'inférence des LLM telles que la distribution désagrégée pour augmenter le nombre de demandes d'inférence traitées sans compromettre l'expérience utilisateur.

Adaptez votre infrastructure d'IA pour l'avenir et évitez des migrations coûteuses

La conception ouverte et modulaire vous permet de sélectionner facilement les composants d'inférence qui répondent à vos besoins uniques, garantissant ainsi la compatibilité avec votre pile d'IA existante et évitant les projets de migration coûteux.

Accélérez les délais de déploiement de nouveaux modèles d'IA en production

La prise en charge par NVIDIA Dynamo de tous les principaux frameworks, notamment TensorRT-LLM, vLLM, SGLang, PyTorch, et bien plus encore, garantit votre capacité à déployer rapidement de nouveaux modèles d'IA générative, quel que soit leur backend.

Accélérez l'inférence distribuée

NVIDIA Dynamo est entièrement open source, ce qui vous offre une transparence et une flexibilité totales. Déployez NVIDIA Dynamo, contribuez à sa croissance et intégrez-le facilement dans votre pile existante.

Découvrez cette offre sur GitHub et rejoignez la communauté !

Commencer

Développez

Aux personnes qui cherchent à accéder au code open source Triton Inference Server pour le développement.

Code d'accès

Développez

Aux personnes qui cherchent à accéder gratuitement aux conteneurs Triton Inference Server pour le développement.

Obtenez un conteneur

Maîtrisez

Accédez à l'infrastructure hébergée par NVIDIA et à des formations pratiques guidées comprenant des instructions et des exemples pas à pas, disponibles gratuitement sur NVIDIA LaunchPad.

Accéder aux ateliers pratiques

Déploiement

Obtenez une licence gratuite de 90 jours pour essayer NVIDIA AI Enterprise en production en utilisant votre infrastructure existante.

Demander une licence de 90 jours

Cas d'utilisation

Déploiement de l'IA avec NVIDIA Dynamo

Découvrez comment vous pouvez stimuler l'innovation grâce à NVIDIA Dynamo.

Modèles de raisonnement de traitement
Inférence distribuée
Agents d'IA évolutifs
Génération de code

Traitement de modèles de raisonnement

Les modèles de raisonnement génèrent plus de jetons pour résoudre des problèmes complexes, ce qui augmente les coûts d'inférence. NVIDIA Dynamo optimise ces modèles grâce à des fonctionnalités telles que la distribution désagrégée. Cette approche sépare les phases de calcul de pré-remplissage et de décodage sur différents GPU, ce qui permet aux équipes d'inférence de l'IA d'optimiser chaque phase de manière indépendante. Il en résulte une meilleure utilisation des ressources, plus de requêtes traitées par GPU et une réduction des coûts d'inférence.

Modèles de raisonnement d'IA de traitement

Inférence distribuée

À mesure que les modèles d'IA deviennent trop grands pour s'insérer sur un seul nœud, leur exploitation efficace devient plus complexe. L'inférence distribuée nécessite de diviser les modèles sur plusieurs nœuds, ce qui ajoute de la complexité en matière d'orchestration, de mise à l'échelle et de communication. La garantie de fonctionnement de ces nœuds en tant qu'unité cohésive, en particulier dans les charges de travail dynamiques, exige une gestion minutieuse. NVIDIA Dynamo simplifie ce processus en fournissant des capacités préconstruites sur Kubernetes, qui permettent de gérer facilement la planification, la mise à l'échelle et la distribution, afin que vous puissiez vous concentrer sur le déploiement de l'IA plutôt que sur la gestion de l'infrastructure.

Agents d'IA évolutifs

Les agents d'IA s'appuient sur plusieurs modèles (LLM, systèmes de récupération et outils spécialisés) travaillant de manière synchronisée en temps réel. La mise à l'échelle de ces agents est un défi complexe qui nécessite une planification intelligente des GPU, une gestion efficace du cache KV et une communication à ultra-faible latence pour maintenir la réactivité.
NVIDIA Dynamo rationalise ce processus avec un planificateur GPU intelligent intégré, un routeur intelligent et une bibliothèque de communication à faible latence, permettant une mise à l'échelle des agents d'IA simple et efficace.

Génération de code

La génération de code nécessite souvent un raffinement itératif pour ajuster les invites, clarifier les exigences ou déboguer les résultats en fonction des réponses du modèle. Ce va-et-vient nécessite un nouveau calcul du contexte à chaque exécution de l'utilisateur, ce qui augmente les coûts d'inférence. NVIDIA Dynamo optimise ce processus en permettant la réutilisation du contexte et le déchargement vers une mémoire rentable, minimisant les calculs répétitifs coûteux et réduisant les coûts globaux d'inférence.

Témoignages clients

Découvrez ce que les leaders de l'industrie ont à dire sur NVIDIA Dynamo

Autres études de cas

Cohere

« La mise à l'échelle des modèles d'IA avancés nécessite une planification multi-GPU sophistiquée, une coordination transparente et des bibliothèques de communication à faible latence qui transfèrent facilement les contextes de raisonnement dans la mémoire et le stockage. Nous nous attendons à ce que Dynamo nous aide à offrir une expérience utilisateur de premier ordre à nos clients professionnels. » Saurabh Baji, vice-président principal de l'ingénierie chez Cohere

Perplexity AI

« Nous traitons des centaines de millions de demandes chaque mois et nous nous appuyons sur les GPU et les logiciels d'inférence de NVIDIA pour offrir les performances, la fiabilité et l'évolutivité exigées par notre entreprise et nos utilisateurs. Nous sommes impatients de tirer parti de Dynamo avec ses capacités de traitement distribué augmentées pour améliorer encore l'efficacité de service d'inférence et répondre aux exigences de calcul des nouveaux modèles de raisonnement de l'IA. » Denis Yarats, CTO de Perplexity AI.

Together AI

« Faire évoluer les modèles de raisonnement de manière rentable nécessite de nouvelles techniques d'inférence avancées, notamment une prestation désagrégée et un routage sensible au contexte. Together AI fournit des performances de pointe pour l'industrie à l'aide de notre moteur d'inférence propriétaire. L'ouverture et la modularité de Dynamo nous permettront de connecter facilement ses composants à notre moteur pour répondre à un plus grand nombre de demandes tout en optimisant l'utilisation des ressources, maximisant ainsi notre investissement dans le calcul accéléré. « Ce Zhang, CTO de Together AI.

Cohere

« La mise à l'échelle des modèles d'IA avancés nécessite une planification multi-GPU sophistiquée, une coordination transparente et des bibliothèques de communication à faible latence qui transfèrent facilement les contextes de raisonnement dans la mémoire et le stockage. Nous nous attendons à ce que NVIDIA Dynamo nous aide à offrir une expérience utilisateur de premier ordre à nos clients professionnels. » Saurabh Baji, vice-président principal de l'ingénierie chez Cohere

Perplexity AI

« Nous traitons des centaines de millions de demandes chaque mois et nous nous appuyons sur les GPU et les logiciels d'inférence de NVIDIA pour offrir les performances, la fiabilité et l'évolutivité exigées par notre entreprise et nos utilisateurs. Nous sommes impatients de tirer parti de NVIDIA Dynamo avec ses capacités de traitement distribué augmentées pour améliorer encore l'efficacité de service d'inférence et répondre aux exigences de calcul des nouveaux modèles de raisonnement de l'IA. » Denis Yarats, CTO de Perplexity AI.

Together AI

« Faire évoluer les modèles de raisonnement de manière rentable nécessite de nouvelles techniques d'inférence avancées, notamment une prestation désagrégée et un routage sensible au contexte. Together AI fournit des performances de pointe pour l'industrie à l'aide de notre moteur d'inférence propriétaire. L'ouverture et la modularité de NVIDIA Dynamo nous permettront de connecter facilement ses composants à notre moteur pour répondre à plus de demandes tout en optimisant l'utilisation des ressources, maximisant ainsi notre investissement dans le calcul accéléré. » Ce Zhang, CTO de Together AI.

Adopteurs

Adoptants majeurs dans de nombreux secteurs

Clients
Ecosystem Integrations

Ressources

Actualités de l'Inférence avec NVIDIA

Articles de blog
Sessions
Entraînement
Vidéos

Suivez toute notre actualité

En savoir plus sur les dernières mises à jour et annonces concernant l'inférence pour le serveur d'inférence NVIDIA Dynamo.

Voir tous les articles sur l'inférence

Consulter blogs techniques

Découvrez les présentations techniques sur la façon de commencer avec l'inférence.

Voir tous les articles techniques sur l'inférence des LLM

Apprenez davantage

Découvrez des conseils et des bonnes pratiques pour déployer, exécuter et faire évoluer les modèles d'IA pour l'inférence de l'IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur, et bien plus encore.

Consulter

Voir tous les articles

IA générative et grands modèles de langage

Déploiement, optimisation et benchmarking des LLM

Découvrez comment traiter efficacement les LLM avec des instructions étape par étape. Nous allons expliquer comment déployer facilement un LLM sur plusieurs backends et comparer leurs performances, ainsi que la façon d'affiner les configurations de déploiement pour des performances optimales.

Regardez cette session GTC sur demande

Cas d'utilisation de l'IA, du développement à la production

Déplacez les cas d'utilisation de l'IA d'entreprise, du développement à la production

Découvrez ce qu'est l'inférence de l'IA, comment elle s'intègre dans la stratégie de déploiement de l'IA de votre entreprise, quels sont les principaux défis posés par le déploiement de l'IA de qualité d'entreprise, pourquoi une solution d'inférence de l'IA complète est nécessaire pour relever ces défis, les principaux composants d'une plateforme complète et comment déployer votre première solution d'inférence de l'IA.

Regardez cette session sur demande

Exploitez la puissance des solutions d'inférence de l'IA prêtes pour le Cloud

Découvrez comment la plateforme d'inférence de l'IA NVIDIA s'intègre facilement aux principaux fournisseurs de services Cloud, simplifiant le déploiement et accélérant le lancement de cas d'utilisation de l'IA basés sur des LLM.

Regardez cette session sur demande

Voir d'autres sessions

Guide de démarrage rapide

Vous débutez avec NVIDIA Dynamo et souhaitez déployer votre modèle rapidement ? Utilisez ce guide de démarrage rapide pour commencer votre parcours avec NVIDIA Dynamo.

Consulter

Didacticiels

Démarrer avec NVIDIA Dynamo peut conduire à de nombreuses questions. Découvrez ce référentiel pour vous familiariser avec les fonctionnalités de NVIDIA Dynamo et trouver des guides et des exemples qui peuvent vous aider à faciliter la migration.

Consulter

NVIDIA LaunchPad

Avec nos formations pratiques, découvrez une IA rapide et évolutive à l'aide de NVIDIA Dynamo. Vous allez pouvoir exploiter immédiatement tous les avantages de l’infrastructure de calcul accéléré de NVIDIA et faire évoluer vos charges de travail d’IA.

Découvrir

Les 5 principales raisons pour lesquelles NVIDIA Dynamo simplifie l'inférence

Le serveur d'inférence NVIDIA Dynamo simplifie le déploiement des modèles d'IA à grande échelle en production, permettant aux équipes de déployer des modèles d'IA entraînés à partir de n'importe quel framework depuis le stockage local ou une plateforme Cloud sur n'importe quelle infrastructure basée sur GPU ou CPU.

Regarder maintenant

Triton pour un déploiement facile et stable d'un pipeline de diffusion

Déployez le pipeline de diffusion stable de HuggingFace avec NVIDIA Dynamo

Cette vidéo présente le déploiement du pipeline Stable Diffusion disponible via la bibliothèque de diffuseurs HuggingFace. Nous utilisons le serveur d'inférence NVIDIA Dynamo pour déployer et exécuter le pipeline.

Regarder maintenant

Démarrer avec le serveur d'inférence NVIDIA Triton

Démarrer avec le serveur d'inférence NVIDIA Dynamo

NVIDIA Dynamo est une solution d'inférence open source qui standardise le déploiement des modèles et permet une IA rapide et évolutive en production. En raison de ses nombreuses fonctionnalités, la question qui peut se poser est la suivante : par où dois-je commencer ? Suivez-la pour ne rien manquer !

Regarder maintenant

Voir d'autres vidéos

Étapes suivantes

Vous voulez vous lancer ?

Téléchargez sur GitHub et rejoignez la communauté !

Pour les développeurs

Découvrez tout ce dont vous avez besoin pour commencer à développer avec NVIDIA Dynamo, notamment la documentation la plus récente ainsi que des didacticiels, des articles techniques et plus encore.

Commencez à développer

Contactez-nous

Discutez avec un spécialiste des produits NVIDIA pour savoir comment passer du stade de pilote à la phase de production en bénéficiant de la garantie de sécurité, de stabilité d'API et du support technique de NVIDIA AI Enterprise.

Contactez-nous

Découvrez comment Snapchat utilise Triton pour améliorer l'expérience d'achat

Découvrez comment Triton Model Analyzer optimise le déploiement des modèles

Lire le guide de l'analyseur des performances de l'IA générative

En savoir plus sur le traitement de pipelines de modèles sur Triton avec des modèles d'ensemble

Déployer sur Amazon SageMaker

Déployer sur Google Vertex AI

Déployer sur Azure ML Studio

Déployer sur Oracle Cloud

Lire le communiqué de presse | Lire l'article technique

Articles de blog
Sessions
Entraînement
Vidéos

Suivez toute notre actualité

En savoir plus sur les dernières mises à jour et annonces concernant l'inférence pour le serveur d'inférence NVIDIA Dynamo.

Voir tous les articles Dynemo

Consulter blogs techniques

Découvrez les présentations techniques sur la façon de commencer avec l'inférence.

Voir tous les articles techniques sur l'inférence des LLM

Apprenez davantage

Consulter

Voir tous les articles

Déploiement, optimisation et benchmarking des LLM

Regardez cette session GTC sur demande

Déplacez les cas d'utilisation de l'IA d'entreprise, du développement à la production

Regardez cette session sur demande

Exploitez la puissance des solutions d'inférence de l'IA prêtes pour le Cloud

Regardez cette session sur demande

Voir d'autres sessions

Guide de démarrage rapide

Vous débutez avec Dynamo et souhaitez déployer votre modèle rapidement ? Utilisez ce guide de démarrage rapide pour commencer votre parcours avec Dynamo.

Consulter

Didacticiels

Démarrer avec Dynamo peut conduire à de nombreuses questions. Découvrez ce référentiel pour vous familiariser avec les fonctionnalités de Dynamo et trouver des guides et des exemples qui peuvent vous aider à faciliter la migration.

Consulter

Démarrer avec le serveur d'inférence NVIDIA Dynamo

Dynamo Inference Server est une solution d'inférence open source qui standardise le déploiement des modèles et permet une IA rapide et évolutive en production. En raison de ses nombreuses fonctionnalités, la question qui peut se poser est la suivante : par où dois-je commencer ? Suivez-la pour ne rien manquer !

Regarder maintenant

Voir tous les articles

NVIDIA Dynamo

Aperçu

Inférence distribuée à faible latence pour l'IA générative

Qu'est-ce que l'inférence distribuée ?

Fonctionnalités

Découvrez les fonctionnalités de NVIDIA Dynamo

Traitement désagrégé

Planificateur de GPU

Routeur intelligent

NIXL Bibliothèque de communication à faible latence

Avantages

Les avantages de NVIDIA Dynamo

Passez facilement d'un GPU à des milliers de GPU

Augmentez la capacité de traitement d'inférence tout en réduisant les coûts

Adaptez votre infrastructure d'IA pour l'avenir et évitez des migrations coûteuses

Accélérez les délais de déploiement de nouveaux modèles d'IA en production

Accélérez l'inférence distribuée

Développez

Développez

Maîtrisez

Déploiement

Cas d'utilisation

Déploiement de l'IA avec NVIDIA Dynamo

Traitement de modèles de raisonnement

Agents d'IA évolutifs

Génération de code

Témoignages clients

Découvrez ce que les leaders de l'industrie ont à dire sur NVIDIA Dynamo

Cohere

Perplexity AI

Together AI

Cohere

Perplexity AI

Together AI

Adopteurs

Adoptants majeurs dans de nombreux secteurs

Ressources

Actualités de l'Inférence avec NVIDIA

Suivez toute notre actualité

Consulter blogs techniques

Apprenez davantage

Étapes suivantes

Vous voulez vous lancer ?

Pour les développeurs

Contactez-nous

Suivez toute notre actualité

Consulter blogs techniques

Apprenez davantage

Vous allez être redirigé vers une page NVIDIA hébergée en dehors de la France

Inférence distribuée à faible latence
pour l'IA générative