Services Cloud

Infrastructure pour les inférences d'IA rationalisée dans le Cloud

Objectif

Baseten exploite les GPU de NVIDIA et NVIDIA® TensorRTTM-LLM pour fournir une infrastructure d'apprentissage automatique haute performance, évolutive et rentable.

Client

Baseten

Partenaire

Baseten

Utilisation

IA générative / LLM

Produits

NVIDIA TensorRT-LLM
GPU NVIDIA A100 Tensor Core
GPU NVIDIA A10 Tensor Core

Infrastructure de Baseten pour les inférences d'IA

La mission de Baseten est simple : fournir une infrastructure d'apprentissage automatique (ML) qui fonctionne, tout simplement.

Avec Baseten, les entreprises disposent de tout le nécessaire pour déployer et utiliser des modèles de ML de façon efficace, évolutive et rentable pour les applications en temps réel. Les clients peuvent utiliser Baseten avec leurs propres modèles ou choisir parmi une variété de modèles pré-entraînés et les déployer en production à l'aide du framework open-source Truss de l'entreprise, avant de les gérer à partir d'un tableau de bord facile à utiliser.

Pour réaliser sa mission depuis le Cloud, Baseten s'appuie sur des instances accélérées par GPU de NVIDIA sur AWS (telles que les instances Amazon EC2 P4d basées sur des GPU NVIDIA A100 Tensor Core) ainsi que sur des logiciels de NVIDIA optimisés (tels que NVIDIA TensorRT-LLM).

Image courtesy of Baseten

Difficultés du déploiement de l'inférence

Baseten s'attaque à plusieurs défis de déploiement de modèles auxquels ses clients sont confrontés, en particulier en ce qui concerne l'évolutivité, la rentabilité et l'expertise.

Évolutivité : la gestion d'une infrastructure d'IA à même de répondre à des niveaux de demande variés (des requêtes individuelles sporadiques aux milliers de requêtes à fort trafic), n'est pas une mince affaire : l'infrastructure sous-jacente doit être à la fois dynamique et réactive, mais aussi capable de s'adapter aux demandes en temps réel sans causer de retards ni nécessiter de supervision manuelle.

Rentabilité : il est essentiel de maximiser l'utilisation des GPU de NVIDIA sous-jacents. L'infrastructure pour les inférences d'IA doit fournir des performances élevées sans entraîner de dépenses inutiles en cas de trafic faible ou élevé.

Expertise : le déploiement de modèles d'apprentissage automatique nécessite des compétences spécifiques et une compréhension approfondie de l'infrastructure sous-jacente. Cette expertise est rare et coûteuse à acquérir, et il est donc difficile pour les entreprises de maintenir des capacités d'inférence de pointe sans un investissement important en personnel qualifié.

Baseten optimisé par NVIDIA sur AWS

Baseten propose une infrastructure d'inférence optimisée grâce au matériel et aux logiciels de NVIDIA pour contribuer à résoudre les difficultés liées à l'évolutivité du déploiement, à la rentabilité et à l'expertise.

Grâce à ses capacités d'évolutivité automatique, Baseten permet aux clients qui déploient leurs modèles d'ajuster de manière dynamique le nombre de répliques en fonction du trafic client et des accords de niveau de service, de façon à ce que la capacité réponde à la demande sans intervention manuelle. La taille de l'infrastructure de Baseten peut ainsi s'adapter au nombre de requêtes reçues par le modèle, ce qui permet de réduire les coûts, car le client n'a rien à payer tant qu'il n'y a aucune activité. Et lorsqu'une requête arrive, l'infrastructure ne met que 5 à 10 secondes pour lancer le modèle (elle s'appuie sur des GPU de NVIDIA sur des instances AWS EC2 elles-mêmes basées sur des GPU NVIDIA A100 Tensor Core). Il s'agit d'une accélération incroyable des démarrages à froid, qui prenaient auparavant jusqu'à cinq minutes, soit une réactivité multipliée par 30 à 60. Les clients peuvent également faire leur choix parmi une large gamme de GPU de NVIDIA disponibles sur Baseten (incluant sans s'y limiter les modèles NVIDIA A100, A10G, T4 et V100 Tensor Core) pour accélérer l'inférence de leur modèle.

Outre le matériel NVIDIA, Baseten exploite aussi les logiciels optimisés par NVIDIA. Grâce à la fonctionnalité TensorRT-LLM du parallélisme de tenseur sur AWS, Baseten a doublé les performances d'inférence de déploiement de LLM de l'un de ces clients, et ce, grâce à son framework open-source Truss. Truss est la bibliothèque open source de packaging et de déploiement de Baseten. Elle permet aux utilisateurs de déployer des modèles pour la production en toute simplicité.

TensorRT-LLM fait partie intégrante de NVIDIA AI Enterprise, une plateforme logicielle de bout en bout sécurisée pour la production et destinée aux entreprises qui développent et déploient des logiciels d'IA accélérés.

L'approche exhaustive des inférences d'IA par NVIDIA joue un rôle crucial pour répondre aux exigences strictes des applications en temps réel des clients de Baseten. Grâce aux GPU NVIDIA A100 et aux optimisations TensorRT-LLM, l'infrastructure sous-jacente entraîne des gains de performances et une réduction des coûts pour les développeurs.

Apprenez-en plus sur Baseten en regardant une courte démonstration de son produit.

Programme NVIDIA Inception

Baseten est membre de NVIDIA Inception, un programme gratuit qui contribue au développement des startups qui révolutionnent leurs industries grâce à l'innovation technologique. Grâce au programme Inception, Baseten a pu accéder très tôt à TensorRT-LLM, ce qui a constitué une opportunité clé de développer et de fournir des solutions hautes performances.

Qu’est-ce que NVIDIA Inception ?

NVIDIA Inception est un programme gratuit qui a été conçu pour aider les startups à évoluer plus rapidement grâce à une technologie de pointe, à une mise en relation avec des investisseurs et à l'accès aux ressources techniques de NVIDIA les plus récentes.

Avantages du programme NVIDIA Inception

Contrairement aux programmes d'accélération traditionnels, NVIDIA Inception prend en charge les startups tout au long de leur cycle de vie. Nous travaillons en étroite collaboration avec les membres de notre programme pour leur donner accès aux meilleurs outils techniques, aux ressources les plus récentes et à des opportunités de rencontrer des investisseurs.

Rejoignez le réseau mondial de NVIDIA Inception et ses plus de 15 000 startups technologiques.