Inférence IA
Faites évoluer et traitez rapidement l'IA générative.
NVIDIA Dynamo est un framework d'inférence modulaire open source pour traiter des modèles d'IA générative dans des environnements distribués. Elle permet de faire évoluer facilement les charges de travail d'inférence sur de grandes flottes de GPU grâce à une planification dynamique des ressources, à un routage intelligent des demandes, à une gestion optimisée de la mémoire et à un transfert de données accéléré.
En exploitant le modèle de raisonnement open source DeepSeek-R1 671B sur NVIDIA GB200 NVL72, NVIDIA Dynamo a multiplié par 30 le nombre de demandes traitées, ce qui en fait la solution idéale pour les usines d'IA qui cherchent à exploiter au coût le plus bas possible afin de maximiser la génération de revenus symboliques.
NVIDIA Dynamo prend en charge tous les principaux backends d'inférence de l'IA et propose des optimisations spécifiques aux grands modèles linguistiques (LLM), telles que la distribution désagrégée, accélérant et faisant évoluer les modèles de raisonnement de l'IA au coût le plus bas et avec la plus grande efficacité. Elle sera prise en charge dans le cadre de NVIDIA AI Enterprise dans une future version.
Sépare les phases de contexte (pré-remplissage) et de génération (décodage) des LLM sur différents GPU, permettant un parallélisme de modèles personnalisés et une allocation indépendante des GPU pour augmenter les demandes traitées par GPU.
Surveille la capacité des GPU dans les environnements d'inférence distribués et alloue dynamiquement les travailleurs des GPU en fonction du contexte et des phases de génération afin de résoudre les goulets d'étranglement et d'optimiser les performances.
Acheminez efficacement le trafic d'inférence, minimisant les calculs répétés coûteux des demandes identiques ou en chevauchement afin de préserver les ressources de calcul tout en garantissant une distribution de charge équilibrée sur les grandes flottes de GPU.
Accélère le mouvement des données dans les paramètres d'inférence distribués tout en simplifiant les complexités de transfert sur divers matériels, notamment les GPU, les CPU, les réseaux et le stockage.
Simplifiez et automatisez la configuration des clusters de GPU avec des outils préconstruits et faciles à déployer et permettez une auto-mise à l'échelle dynamique avec des métriques spécifiques aux LLM en temps réel, évitant ainsi le sur-ou le sous-approvisionnement des ressources GPU.
Tirez parti des optimisations avancées de traitement d'inférence des LLM telles que la distribution désagrégée pour augmenter le nombre de demandes d'inférence traitées sans compromettre l'expérience utilisateur.
La conception ouverte et modulaire vous permet de sélectionner facilement les composants d'inférence qui répondent à vos besoins uniques, garantissant ainsi la compatibilité avec votre pile d'IA existante et évitant les projets de migration coûteux.
La prise en charge par NVIDIA Dynamo de tous les principaux frameworks, notamment TensorRT-LLM, vLLM, SGLang, PyTorch, et bien plus encore, garantit votre capacité à déployer rapidement de nouveaux modèles d'IA générative, quel que soit leur backend.
NVIDIA Dynamo est entièrement open source, ce qui vous offre une transparence et une flexibilité totales. Déployez NVIDIA Dynamo, contribuez à sa croissance et intégrez-le facilement dans votre pile existante.
Découvrez cette offre sur GitHub et rejoignez la communauté !
Découvrez comment vous pouvez stimuler l'innovation grâce à NVIDIA Dynamo.
Les modèles de raisonnement génèrent plus de jetons pour résoudre des problèmes complexes, ce qui augmente les coûts d'inférence. NVIDIA Dynamo optimise ces modèles grâce à des fonctionnalités telles que la distribution désagrégée. Cette approche sépare les phases de calcul de pré-remplissage et de décodage sur différents GPU, ce qui permet aux équipes d'inférence de l'IA d'optimiser chaque phase de manière indépendante. Il en résulte une meilleure utilisation des ressources, plus de requêtes traitées par GPU et une réduction des coûts d'inférence.
Téléchargez sur GitHub et rejoignez la communauté !
Découvrez tout ce dont vous avez besoin pour commencer à développer avec NVIDIA Dynamo, notamment la documentation la plus récente ainsi que des didacticiels, des articles techniques et plus encore.
Discutez avec un spécialiste des produits NVIDIA pour savoir comment passer du stade de pilote à la phase de production en bénéficiant de la garantie de sécurité, de stabilité d'API et du support technique de NVIDIA AI Enterprise.