Servicios en la nube

Infraestructura de inferencia de IA simplificada en la nube

Objetivo

Baseten saca partido a las GPU NVIDIA y a NVIDIA® TensorRT™-LLM para proporcionar una infraestructura de aprendizaje automático de alto rendimiento, escalable y rentable.

Cliente

Baseten

Partner

Baseten

Caso de uso

IA generativa/LLM

Productos

NVIDIA TensorRT-LLM GPU
GPU NVIDIA A100 con Tensor Core
GPU NVIDIA A10 con Tensor Core

Infraestructura de inferencia de IA de Baseten

La misión de Baseten es sencilla: proporcionar una infraestructura de aprendizaje automático que funcione.

Con Baseten, las organizaciones tienen todo lo que necesitan para implementar y servir sus modelos de aprendizaje automático de forma eficaz y rentable en aplicaciones en tiempo real. Los clientes pueden acudir a Baseten con sus propios modelos o bien elegir entre toda una fama de modelos pre-entrenados, para implementarlos en producción, servidos a través del marco de código abierto Truss de Baseten, gestionado mediante un panel de control fácil de usar.

Al sacar partido a las instancias aceleradas por GPU NVIDIA en AWS, como las instancias Amazon EC2 P4d con GPU NVIDIA A100 con núcleos Tensor, y el software optimizado de NVIDIA software, como NVIDIA TensorRT-LLM, Baseten puede cumplir su misión desde la nube.

Image courtesy of Baseten

Desafíos en la implementación de la inferencia

Baseten aborda varios de los retos en la implantación de modelos a los que se enfrentan sus clientes, concretamente aquellos en torno a la escalabilidad, la rentabilidad y la experiencia.

Escalabilidad: Gestionar una infraestructura de IA que atienda a los distintos niveles de demanda, desde las solicitudes individuales esporádicas hasta miles de solicitudes de gran tráfico supone un gran desafío. La infraestructura subyacente debe ser dinámica y reactiva, adaptándose a las demandas en tiempo real sin provocar retrasos ni necesitar de supervisión manual.

Eficiencia de costes: Maximizar la utilización de las GPU NVIDIA subyacentes es fundamental. La infraestructura de inferencia de IA debe ofrecer un alto rendimiento sin incurrir en gastos innecesarios, ya sea en escenarios de bajo o alto tráfico.

Experiencia: La implementación de modelos de aprendizaje automático requiere conocimientos especializados y una profunda comprensión de la infraestructura subyacente. Estos conocimientos pueden ser escasos y costosos de adquirir, lo que supone un reto para las organizaciones a la hora de mantener capacidades de inferencia de vanguardia sin una inversión significativa en personal cualificado.

Baseten con tecnología NVIDIA en AWS

Baseten ofrece una infraestructura de inferencia optimizada por el hardware y software de NVIDIA, para ayudar a resolver los desafíos en materia de escalabilidad, eficiencia de costes y experiencia en la implementación.

Gracias a las capacidades de escalado automático, Baseten permite a los clientes implementar sus modelos, ajustar dinámicamente el número de réplicas basadas en el tráfico de consumidores y establecer acuerdos sobre los servicios, garantizando que la capacidad satisfaga la demanda sin necesidad de intervención manual. Esto ayuda a optimizar el coste, ya que la infraestructura de Baseten puede escalar fácilmente hacia arriba o hacia abajo dependiendo del número de solicitudes que llegan al modelo. No solo no le cuesta nada a los clientes cuando no hay actividad, sino que una vez que se recibe una solicitud, la infraestructura de Baseten, impulsada por GPU NVIDIA A100 con núcleo Tensor en instancias de EC2 de AWS, solo tarda entre 5 y 10 segundos en poner el modelo en marcha. Se trata de una increíble aceleración en los arranques en frío, que antes tardaban hasta cinco minutos, con un aumento de 30 a 60 veces la velocidad. Los clientes también pueden elegir entre una variedad de GPU NVIDIA disponibles en Baseten para acelerar la inferencia de modelos, entre ellas, las GPU NVIDIA A100, A10G, T4 y V100 con núcleo Tensor.

Además del hardware de NVIDIA, Baseten aprovecha el software optimizado de NVIDIA. A través de la característica TensorRT-LLM de paralelismo de tensores de AWS, Baseten aumentó el rendimiento de inferencia para la implementación de LLM de un cliente en su marco Truss de código abierto. Truss es la biblioteca de empaquetado e implementación de código abierto de Baseten, que permite a los usuarios implementar modelos en producción con facilidad.

TensorRT-LLM se incluye como parte de NVIDIA AI Enterprise, que proporciona una plataforma de software segura, de extremo a extremo, para las empresas que crean e implementan software de IA acelerado.

El enfoque de inferencia de pila completa de NVIDIA juega un papel crucial a la hora de satisfacer las estrictas demandas de las aplicaciones en tiempo real de los clientes. Con las optimizaciones de NVIDIA A100 Tensor-LLM, la infraestructura subyacente permite a los desarrolladores acceder tanto a ganancias de rendimiento como ahorro de costes.

Para saber más sobre Baseten vea una demostración rápida de su producto.

Programa Inception de NVIDIA

Baseten es miembro de NVIDIA Inception, un programa gratuito que fomenta el desarrollo de las empresas emergentes que revolucionan sus sectores a través de avances tecnológicos. Como beneficio de Inception, Baseten obtuvo acceso anticipado a TensorRT-LLM, lo que representa una oportunidad significativa para desarrollar y ofrecer soluciones de alto rendimiento.

¿Qué es NVIDIA Inception?

NVIDIA Inception es un programa gratuito diseñado para ayudar a las empresas emergentes a evolucionar más rápido a través de tecnologías de vanguardia, oportunidades para conectar con capitalistas de riesgo y el acceso a los últimos recursos técnicos de NVIDIA.

Beneficios del programa NVIDIA Inception

A diferencia de los aceleradores tradicionales, NVIDIA Inception apoya a las empresas emergentes durante todo su ciclo de vida. Trabajamos en estrecha colaboración con los miembros para proporcionar las mejores herramientas técnicas y los recursos más novedosos, además de oportunidades para conectar con inversores.

Únete a la red global de NVIDIA Inception con más de 15 000 empresas emergentes del sector tecnológico.

Más información