Simplifiez le déploiement de vos modèles

Tirez parti du serveur d’inférence NVIDIA Triton pour déployer facilement des modèles d’IA multi-frameworks en toute évolutivité.

Une architecture système de bout en bout

Le serveur d’inférence NVIDIA Triton simplifie le déploiement et la mise à niveau de vos modèles d’IA dédiés à la production. NVIDIA Triton est une solution logicielle d’inférence open-source qui permet à différentes équipes de projet de déployer des modèles d’IA entraînés avec n’importe quel framework à partir d’un système de stockage local ou via Google Cloud Platform/Amazon AWS S3 sur n’importe quelle infrastructure GPU ou CPU, Cloud, Data Center ou Edge. Commencez à utiliser Triton en vous connectant au conteneur dédié du catalogue NVIDIA NGC, notre hub de logiciels optimisés pour l’accélération GPU dans des champs d’application comme le Deep Learning et l’apprentissage automatique, vous permettant ainsi d’accélérer le déploiement d’une grande variété de workflows de développement.

Avantages du serveur d’inférence NVIDIA Triton

Prise en charge de frameworks multiples

Le serveur d’inférence Triton prend en charge tous les principaux frameworks de l’industrie tels que TensorFlow, NVIDIA® TensorRT, PyTorch, ONNX Runtime, ainsi que les frameworks backend personnalisés. Il donne aux chercheurs en IA et aux data scientists la liberté de choisir librement le framework le mieux adapté à leur projet.

Système d’inférence à hautes performances

Le serveur d’inférence Triton permet d’exécuter plusieurs modèles simultanément sur des GPU, de manière à maximiser la densité d’utilisation. Il prend également en charge l’inférence sur CPU et offre des fonctionnalités avancées telles que la gestion des ensembles de modèles ou les systèmes d’inférence en streaming. Cette innovation technologique aide les développeurs à mettre leurs modèles en production bien plus rapidement.

Conçu pour les approches DevOps et MLOps

Disponible en tant que conteneur Docker, le serveur d’inférence Triton s’intègre à Kubernetes pour l’orchestration et la mise à l’échelle. Partie intégrante de Kubeflow, il vous permet en outre d’exporter des statistiques Prometheus pour la supervision informatique. Il aide les équipes IT et DevOps à rationaliser le déploiement des modèles en production.

Le pipeline d’inférence

Déploiement simplifié des modèles

Le serveur d’inférence NVIDIA Triton simplifie le déploiement et la mise à niveau de vos modèles d’IA dédiés à la production, sur CPU comme sur GPU. Compatible avec les principaux frameworks de l’industrie, il peut exécuter plusieurs modèles simultanément pour optimiser le rendement et la densité d’utilisation, et il s’intègre avec les outils DevOps pour rationaliser la production et simplifier la configuration.

Toute ces fonctionnalités se placent au service des data scientists, des développeurs et des administrateurs informatiques afin d’accélérer le développement des modèles d’IA et d’assurer une mise en production plus rapide.

Conçu pour une évolutivité maximale

Grâce à une technologie d’inférence basée sur les microservices, le serveur d’inférence NVIDIA Triton offre une évolutivité à l’échelle des Data Centers et du Cloud. Vous pouvez le déployer en tant que microservice de conteneurs pour le prétraitement, l’exécution et le post-traitement des modèles de Deep Learning sur GPU et CPU. Chaque instance Triton peut être mise à niveau indépendamment dans un environnement Kubernetes pour fournir des performances optimales. Un seule commande Helm exécutée depuis NGC permet de déployer Triton via Kubernetes.

Triton peut être utilisé pour déployer des modèles dans le Cloud, sur des Data Centers ou à l’Edge.

Le pipeline d’inférence

Commencez à utiliser le serveur d’inférence NVIDIA Triton sur NGC.