Baseten propose une infrastructure d'inférence optimisée grâce au matériel et aux logiciels de NVIDIA pour contribuer à résoudre les difficultés liées à l'évolutivité du déploiement, à la rentabilité et à l'expertise.
Grâce à ses capacités d'évolutivité automatique, Baseten permet aux clients qui déploient leurs modèles d'ajuster de manière dynamique le nombre de répliques en fonction du trafic client et des accords de niveau de service, de façon à ce que la capacité réponde à la demande sans intervention manuelle. La taille de l'infrastructure de Baseten peut ainsi s'adapter au nombre de requêtes reçues par le modèle, ce qui permet de réduire les coûts, car le client n'a rien à payer tant qu'il n'y a aucune activité. Et lorsqu'une requête arrive, l'infrastructure ne met que 5 à 10 secondes pour lancer le modèle (elle s'appuie sur des GPU de NVIDIA sur des instances AWS EC2 elles-mêmes basées sur des GPU NVIDIA A100 Tensor Core). Il s'agit d'une accélération incroyable des démarrages à froid, qui prenaient auparavant jusqu'à cinq minutes, soit une réactivité multipliée par 30 à 60. Les clients peuvent également faire leur choix parmi une large gamme de GPU de NVIDIA disponibles sur Baseten (incluant sans s'y limiter les modèles NVIDIA A100, A10G, T4 et V100 Tensor Core) pour accélérer l'inférence de leur modèle.
Outre le matériel NVIDIA, Baseten exploite aussi les logiciels optimisés par NVIDIA. Grâce à la fonctionnalité TensorRT-LLM du parallélisme de tenseur sur AWS, Baseten a doublé les performances d'inférence de déploiement de LLM de l'un de ces clients, et ce, grâce à son framework open-source Truss. Truss est la bibliothèque open source de packaging et de déploiement de Baseten. Elle permet aux utilisateurs de déployer des modèles pour la production en toute simplicité.
TensorRT-LLM fait partie intégrante de NVIDIA AI Enterprise, une plateforme logicielle de bout en bout sécurisée pour la production et destinée aux entreprises qui développent et déploient des logiciels d'IA accélérés.
L'approche exhaustive des inférences d'IA par NVIDIA joue un rôle crucial pour répondre aux exigences strictes des applications en temps réel des clients de Baseten. Grâce aux GPU NVIDIA A100 et aux optimisations TensorRT-LLM, l'infrastructure sous-jacente entraîne des gains de performances et une réduction des coûts pour les développeurs.
Apprenez-en plus sur Baseten en regardant une courte démonstration de son produit.