Baseten ofrece una infraestructura de inferencia optimizada por el hardware y software de NVIDIA, para ayudar a resolver los desafíos en materia de escalabilidad, eficiencia de costes y experiencia en la implementación.
Gracias a las capacidades de escalado automático, Baseten permite a los clientes implementar sus modelos, ajustar dinámicamente el número de réplicas basadas en el tráfico de consumidores y establecer acuerdos sobre los servicios, garantizando que la capacidad satisfaga la demanda sin necesidad de intervención manual. Esto ayuda a optimizar el coste, ya que la infraestructura de Baseten puede escalar fácilmente hacia arriba o hacia abajo dependiendo del número de solicitudes que llegan al modelo. No solo no le cuesta nada a los clientes cuando no hay actividad, sino que una vez que se recibe una solicitud, la infraestructura de Baseten, impulsada por GPU NVIDIA A100 con núcleo Tensor en instancias de EC2 de AWS, solo tarda entre 5 y 10 segundos en poner el modelo en marcha. Se trata de una increíble aceleración en los arranques en frío, que antes tardaban hasta cinco minutos, con un aumento de 30 a 60 veces la velocidad. Los clientes también pueden elegir entre una variedad de GPU NVIDIA disponibles en Baseten para acelerar la inferencia de modelos, entre ellas, las GPU NVIDIA A100, A10G, T4 y V100 con núcleo Tensor.
Además del hardware de NVIDIA, Baseten aprovecha el software optimizado de NVIDIA. A través de la característica TensorRT-LLM de paralelismo de tensores de AWS, Baseten aumentó el rendimiento de inferencia para la implementación de LLM de un cliente en su marco Truss de código abierto. Truss es la biblioteca de empaquetado e implementación de código abierto de Baseten, que permite a los usuarios implementar modelos en producción con facilidad.
TensorRT-LLM se incluye como parte de NVIDIA AI Enterprise, que proporciona una plataforma de software segura, de extremo a extremo, para las empresas que crean e implementan software de IA acelerado.
El enfoque de inferencia de pila completa de NVIDIA juega un papel crucial a la hora de satisfacer las estrictas demandas de las aplicaciones en tiempo real de los clientes. Con las optimizaciones de NVIDIA A100 Tensor-LLM, la infraestructura subyacente permite a los desarrolladores acceder tanto a ganancias de rendimiento como ahorro de costes.
Para saber más sobre Baseten vea una demostración rápida de su producto.