Inférence

Serveur d’inférence NVIDIA Triton

Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme.

Exploitez l'inférence avec toutes vos charges de travail d’IA

Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d'inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail.

Déploiement, optimisation et benchmarking des LLM

Obtenez des instructions détaillées sur la manière de traiter efficacement de grands modèles de langage (LLM) avec le serveur d’inférence Triton.

Avantages du serveur d’inférence Triton

Supports All Training and Inference Frameworks

Compatibilité avec tous les frameworks d’entraînement et d’inférence

Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.

High-Performance Inference on Any Platform

Inférence à hautes performances sur toutes les plateformes

Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM ainsi que AWS Inferentia.

Open Source and Designed for DevOps and MLOps

Philosophie open-source et conception DevOps/MLOps

Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud.

Enterprise-Grade Security and API Stability

Fonctionnalités de sécurité, de gestion et de stabilité d'API pour les entreprises

NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API.

Découvrez les fonctionnalités et les outils du serveur d’inférence NVIDIA Triton

Supports All Training and Inference Frameworks

Inférence avec de grands modèles de langage

Triton fournit une faible latence et un rendement élevé pour l’inférence avec les LLM. Il prend en charge TensorRT-LLM, une bibliothèque open-source pour la définition, l’optimisation et l’exécution des LLM pour l’inférence en production.

High-Performance Inference on Any Platform

Ensembles de modèles

Les ensembles de modèles Triton vous permettent d’exécuter des charges de travail d’IA avec une multitude de modèles, de pipelines et d’étapes de pré et post-traitement. Votre environnement Triton est ainsi en mesure d'exécuter différentes parties de l’ensemble sur CPU ou GPU et autorise le recours à de multiples frameworks au sein d’un ensemble.

Open Source and Designed for DevOps and MLOps

NVIDIA PyTriton

PyTriton permet aux développeurs Python de mettre en œuvre Triton avec une seule ligne de code et de s’en servir pour exécuter des modèles, des fonctions de traitement simples ou des pipelines d’inférence entiers afin d’accélérer le prototypage et les tests.

Enterprise-Grade Security and API Stability

Analyseur de modèles de NVIDIA Triton

L'analyseur de modèles vous permet de déterminer plus rapidement la configuration optimale pour le déploiement d’un modèle, notamment en termes de taille de batch, de précision et d’instances simultanées. Cet outil vous aide à choisir la meilleure configuration pour répondre à différents besoins en matière de latence, de rendement et de mémoire.

Adoptants majeurs dans tous les secteurs

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Démarrez avec NVIDIA Triton

Ayez recours aux outils appropriés pour déployer, exécuter et faire évoluer n’importe quelle application d'IA sur n’importe quelle plateforme.

Commencez à développer avec du code ou des conteneurs

Si vous souhaitez accéder au code open-source et aux conteneurs de Triton à des fins de développement, deux options gratuites s’offrent à vous :

Utilisez du code open-source
Accédez à des logiciels open-source sur GitHub avec des exemples de bout en bout.

Téléchargez un conteneur
Faites votre choix parmi les conteneurs Linux du serveur d’inférence Triton pour x86 et Arm® sur NVIDIA NGC™.

Essayez avant d’acheter

Pour les entreprises qui souhaitent tester Triton avant d’acheter des produits NVIDIA AI Enterprise pour la production, deux options s’offrent à vous :

Sans infrastructure
Si vous ne disposez pas d'une infrastructure existante, NVIDIA vous propose des ateliers pratiques et gratuits via NVIDIA LaunchPad.

Avec infrastructure
Si vous disposez d’une infrastructure existante, NVIDIA vous propose une licence d’évaluation gratuite de 90 jours pour NVIDIA AI Enterprise.

Ressources

Top 5 des raisons pour lesquelles Triton contribue à simplifier l’inférence

Le serveur d’inférence NVIDIA Triton simplifie le déploiement en toute évolutivité des modèles d’IA pour la production, en permettant aux équipes spécialisées de déployer des modèles d’IA entraînés sur n’importe quelle infrastructure basée sur GPU ou sur GPU.

Déployez le pipeline Stable Diffusion de HuggingFace avec Triton

Cette vidéo vous explique comment déployer le pipeline Stable Diffusion disponible via la bibliothèque de diffusion fournie par HuggingFace. Dans cette vidéo de démonstration, nous utilisons le serveur d’inférence Triton pour déployer et exécuter le pipeline.

Commencez à utiliser le serveur d’inférence NVIDIA Triton

Le serveur d’inférence Triton est une solution d’inférence open-source qui standardise le déploiement des modèles et permet une mise en production rapide et évolutive de l'IA. En raison de ses nombreuses fonctionnalités, une question se pose naturellement : par où commencer ? Regardez notre vidéo pour tout savoir.

Vous allez être redirigé vers une page NVIDIA hébergée en dehors de la France

Continuer
Select Location
Middle East