Inférence IA

NVIDIA Dynamo

Faites évoluer et traitez rapidement l'IA générative.

Aperçu

Inférence distribuée à faible latence
pour l'IA générative

NVIDIA Dynamo est un framework d'inférence modulaire open source pour traiter des modèles d'IA générative dans des environnements distribués. Elle permet de faire évoluer facilement les charges de travail d'inférence sur de grandes flottes de GPU grâce à une planification dynamique des ressources, à un routage intelligent des demandes, à une gestion optimisée de la mémoire et à un transfert de données accéléré.

En exploitant le modèle de raisonnement open source DeepSeek-R1 671B sur NVIDIA GB200 NVL72, NVIDIA Dynamo a multiplié par 30 le nombre de demandes traitées, ce qui en fait la solution idéale pour les usines d'IA qui cherchent à exploiter au coût le plus bas possible afin de maximiser la génération de revenus symboliques.

NVIDIA Dynamo prend en charge tous les principaux backends d'inférence de l'IA et propose des optimisations spécifiques aux grands modèles linguistiques (LLM), telles que la distribution désagrégée, accélérant et faisant évoluer les modèles de raisonnement de l'IA au coût le plus bas et avec la plus grande efficacité. Elle sera prise en charge dans le cadre de NVIDIA AI Enterprise dans une future version.

Qu'est-ce que l'inférence distribuée ?

L'inférence distribuée est le processus d'exécution de l'inférence des modèles d'IA sur plusieurs appareils ou nœuds de calcul afin de maximiser le débit en parallélisant les calculs. 

Cette approche permet une mise à l'échelle efficace des applications d'IA à grande échelle, telles que l'IA générative, en distribuant les charges de travail sur des GPU ou une infrastructure Cloud. L'inférence distribuée améliore les performances globales et l'utilisation des ressources en permettant aux utilisateurs d'optimiser la latence et le débit pour les exigences uniques de chaque charge de travail.

Fonctionnalités

Découvrez les fonctionnalités de NVIDIA Dynamo

Icône de distribution désagrégée

Traitement désagrégé

Sépare les phases de contexte (pré-remplissage) et de génération (décodage) des LLM sur différents GPU, permettant un parallélisme de modèles personnalisés et une allocation indépendante des GPU pour augmenter les demandes traitées par GPU.

Icône de planificateur GPU

Planificateur de GPU

Surveille la capacité des GPU dans les environnements d'inférence distribués et alloue dynamiquement les travailleurs des GPU en fonction du contexte et des phases de génération afin de résoudre les goulets d'étranglement et d'optimiser les performances.

Routeur intelligent

Routeur intelligent

Acheminez efficacement le trafic d'inférence, minimisant les calculs répétés coûteux des demandes identiques ou en chevauchement afin de préserver les ressources de calcul tout en garantissant une distribution de charge équilibrée sur les grandes flottes de GPU.

Icône de fichier

NIXL Bibliothèque de communication à faible latence

Accélère le mouvement des données dans les paramètres d'inférence distribués tout en simplifiant les complexités de transfert sur divers matériels, notamment les GPU, les CPU, les réseaux et le stockage.

Avantages

Les avantages de NVIDIA Dynamo

Icône d'évolutivité

Passez facilement d'un GPU à des milliers de GPU

Simplifiez et automatisez la configuration des clusters de GPU avec des outils préconstruits et faciles à déployer et permettez une auto-mise à l'échelle dynamique avec des métriques spécifiques aux LLM en temps réel, évitant ainsi le sur-ou le sous-approvisionnement des ressources GPU.

Icône de traitement

Augmentez la capacité de traitement d'inférence tout en réduisant les coûts

Tirez parti des optimisations avancées de traitement d'inférence des LLM telles que la distribution désagrégée pour augmenter le nombre de demandes d'inférence traitées sans compromettre l'expérience utilisateur.

Icône de case à cocher

Adaptez votre infrastructure d'IA pour l'avenir et évitez des migrations coûteuses

La conception ouverte et modulaire vous permet de sélectionner facilement les composants d'inférence qui répondent à vos besoins uniques, garantissant ainsi la compatibilité avec votre pile d'IA existante et évitant les projets de migration coûteux.

Icône de processus itératif

Accélérez les délais de déploiement de nouveaux modèles d'IA en production

La prise en charge par NVIDIA Dynamo de tous les principaux frameworks, notamment TensorRT-LLM, vLLM, SGLang, PyTorch, et bien plus encore, garantit votre capacité à déployer rapidement de nouveaux modèles d'IA générative, quel que soit leur backend.

Accélérez l'inférence distribuée

NVIDIA Dynamo est entièrement open source, ce qui vous offre une transparence et une flexibilité totales. Déployez NVIDIA Dynamo, contribuez à sa croissance et intégrez-le facilement dans votre pile existante.

 Découvrez cette offre sur GitHub et rejoignez la communauté !

Développez

Aux personnes qui cherchent à accéder au code open source Triton Inference Server pour le développement.

Développez

Aux personnes qui cherchent à accéder gratuitement aux conteneurs Triton Inference Server pour le développement.

Maîtrisez

Accédez à l'infrastructure hébergée par NVIDIA et à des formations pratiques guidées comprenant des instructions et des exemples pas à pas, disponibles gratuitement sur NVIDIA LaunchPad.

Déploiement

Obtenez une licence gratuite de 90 jours pour essayer NVIDIA AI Enterprise en production en utilisant votre infrastructure existante.  

Cas d'utilisation

Déploiement de l'IA avec NVIDIA Dynamo

Découvrez comment vous pouvez stimuler l'innovation grâce à NVIDIA Dynamo.

Traitement de modèles de raisonnement

Les modèles de raisonnement génèrent plus de jetons pour résoudre des problèmes complexes, ce qui augmente les coûts d'inférence. NVIDIA Dynamo optimise ces modèles grâce à des fonctionnalités telles que la distribution désagrégée. Cette approche sépare les phases de calcul de pré-remplissage et de décodage sur différents GPU, ce qui permet aux équipes d'inférence de l'IA d'optimiser chaque phase de manière indépendante. Il en résulte une meilleure utilisation des ressources, plus de requêtes traitées par GPU et une réduction des coûts d'inférence.

Modèles de raisonnement d'IA de traitement

Témoignages clients

Découvrez ce que les leaders de l'industrie ont à dire sur NVIDIA Dynamo

Cohere

Cohere

« La mise à l'échelle des modèles d'IA avancés nécessite une planification multi-GPU sophistiquée, une coordination transparente et des bibliothèques de communication à faible latence qui transfèrent facilement les contextes de raisonnement dans la mémoire et le stockage. Nous nous attendons à ce que Dynamo nous aide à offrir une expérience utilisateur de premier ordre à nos clients professionnels. »  Saurabh Baji, vice-président principal de l'ingénierie chez Cohere

Perplexity

Perplexity AI

« Nous traitons des centaines de millions de demandes chaque mois et nous nous appuyons sur les GPU et les logiciels d'inférence de NVIDIA pour offrir les performances, la fiabilité et l'évolutivité exigées par notre entreprise et nos utilisateurs. Nous sommes impatients de tirer parti de Dynamo avec ses capacités de traitement distribué augmentées pour améliorer encore l'efficacité de service d'inférence et répondre aux exigences de calcul des nouveaux modèles de raisonnement de l'IA. » Denis Yarats, CTO de Perplexity AI.

Together.ai

Together AI

« Faire évoluer les modèles de raisonnement de manière rentable nécessite de nouvelles techniques d'inférence avancées, notamment une prestation désagrégée et un routage sensible au contexte. Together AI fournit des performances de pointe pour l'industrie à l'aide de notre moteur d'inférence propriétaire. L'ouverture et la modularité de Dynamo nous permettront de connecter facilement ses composants à notre moteur pour répondre à un plus grand nombre de demandes tout en optimisant l'utilisation des ressources, maximisant ainsi notre investissement dans le calcul accéléré. « Ce Zhang, CTO de Together AI.

Cohere

Cohere

« La mise à l'échelle des modèles d'IA avancés nécessite une planification multi-GPU sophistiquée, une coordination transparente et des bibliothèques de communication à faible latence qui transfèrent facilement les contextes de raisonnement dans la mémoire et le stockage. Nous nous attendons à ce que NVIDIA Dynamo nous aide à offrir une expérience utilisateur de premier ordre à nos clients professionnels. »  Saurabh Baji, vice-président principal de l'ingénierie chez Cohere

Perplexity

Perplexity AI

« Nous traitons des centaines de millions de demandes chaque mois et nous nous appuyons sur les GPU et les logiciels d'inférence de NVIDIA pour offrir les performances, la fiabilité et l'évolutivité exigées par notre entreprise et nos utilisateurs. Nous sommes impatients de tirer parti de NVIDIA Dynamo avec ses capacités de traitement distribué augmentées pour améliorer encore l'efficacité de service d'inférence et répondre aux exigences de calcul des nouveaux modèles de raisonnement de l'IA. » Denis Yarats, CTO de Perplexity AI.

Together.ai

Together AI

« Faire évoluer les modèles de raisonnement de manière rentable nécessite de nouvelles techniques d'inférence avancées, notamment une prestation désagrégée et un routage sensible au contexte. Together AI fournit des performances de pointe pour l'industrie à l'aide de notre moteur d'inférence propriétaire. L'ouverture et la modularité de NVIDIA Dynamo nous permettront de connecter facilement ses composants à notre moteur pour répondre à plus de demandes tout en optimisant l'utilisation des ressources, maximisant ainsi notre investissement dans le calcul accéléré. »  Ce Zhang, CTO de Together AI.

Adopteurs

Adoptants majeurs dans de nombreux secteurs

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
Infosys
Intelligent Voice
NIO
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Ressources

Actualités de l'Inférence avec NVIDIA

Suivez toute notre actualité

Suivez toute notre actualité

En savoir plus sur les dernières mises à jour et annonces concernant l'inférence pour le serveur d'inférence NVIDIA Dynamo.

Consulter blogs techniques

Consulter blogs techniques

Découvrez les présentations techniques sur la façon de commencer avec l'inférence.

Apprenez davantage

Apprenez davantage

Découvrez des conseils et des bonnes pratiques pour déployer, exécuter et faire évoluer les modèles d'IA pour l'inférence de l'IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur, et bien plus encore.

Étapes suivantes

Vous voulez vous lancer ?

Téléchargez sur GitHub et rejoignez la communauté !

Décoratif

Pour les développeurs

Découvrez tout ce dont vous avez besoin pour commencer à développer avec NVIDIA Dynamo, notamment la documentation la plus récente ainsi que des didacticiels, des articles techniques et plus encore.

Décoratif

Contactez-nous

Discutez avec un spécialiste des produits NVIDIA pour savoir comment passer du stade de pilote à la phase de production en bénéficiant de la garantie de sécurité, de stabilité d'API et du support technique de NVIDIA AI Enterprise.

Lire le communiqué de presse | Lire l'article technique

Suivez toute notre actualité

Suivez toute notre actualité

En savoir plus sur les dernières mises à jour et annonces concernant l'inférence pour le serveur d'inférence NVIDIA Dynamo.

Consulter blogs techniques

Consulter blogs techniques

Découvrez les présentations techniques sur la façon de commencer avec l'inférence.

Apprenez davantage

Apprenez davantage

Découvrez des conseils et des bonnes pratiques pour déployer, exécuter et faire évoluer les modèles d'IA pour l'inférence de l'IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur, et bien plus encore.

Vous allez être redirigé vers une page NVIDIA hébergée en dehors de la France

Continuer
Select Location
Middle East