Perplexity tiene como objetivo facilitar a los desarrolladores la integración de modelos lingüísticos de gran tamaño (LLM) de código abierto y de vanguardia en sus proyectos con pplx-api, una herramienta de API eficiente impulsada por GPU NVIDIA y optimizada para inferencia rápida con NVIDIA® TensorRT™-LLM.
Perplexity
AWS
IA generativa/LLM
NVIDIA TensorRT-LLM
GPU NVIDIA H100 con núcleo Tensor
GPU NVIDIA A100 con núcleo Tensor
Ofrecer inferencia de LLM rápida y eficiente es clave para las aplicaciones en tiempo real.
Perplexity ofrece pplx-api, una API diseñada para acceder a LLM populares con capacidades de inferencia increíblemente rápidas y una infraestructura robusta. Pplx-api está creada para desarrolladores que buscan integrar LLM de código abierto en sus proyectos y está diseñada para admitir tráfico a nivel de producción. Actualmente disponible en instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2) impulsadas por GPU NVIDIA A100 Tensor Core y se acelera aún más con NVIDIA TensorRT-LLM. Pronto, Perplexity hará una transición completa a instancias de Amazon P5 impulsadas por GPU NVIDIA H100 Tensor Core.
Perplexity se enfrenta a varios desafíos al implementar los LLM para su producto principal, que implementa versiones personalizadas de varios modelos de código abierto especializados para búsqueda. Un desafío importante para una empresa emergente ha sabido gestionar los crecientes costes asociados a la inferencia de LLM para ayudar al rápido crecimiento de Perplexity.
Desde que la plataforma de inferencia de LLM de Perplexity, pplx-api, se lanzó en versión beta al público en octubre de 2023, Perplexity ha tenido el desafío de optimizar su infraestructura para lograr una ampliación masiva con un coste mínimo manteniendo los estrictos requisitos de acuerdo de nivel de servicio (SLA).
Además, los LLM comunitarios crecen a un ritmo trepidante. Organizaciones de todos los tamaños deben adaptarse rápidamente a estas innovaciones y aprovechar la infraestructura optimizada para implementar modelos complejos de manera eficiente. Esto aumenta los costes y la complejidad de la implementación, por lo que un enfoque optimizado de pila completa resulta esencial para un sólido rendimiento de las aplicaciones con tecnología de LLM.
Image courtesy of Perplexity.
Perplexity aprovecha la potencia del hardware y el software de NVIDIA para resolver este desafío. Al ofrecer resultados más rápido de lo que se tarda en leerlos, pplx-api puede lograr hasta 3,1 veces menos latencia y hasta 4,3 veces menos latencia de primer token en comparación con otras plataformas de implementación. Perplexity pudo reducir los costes a la cuarta parte simplemente cambiando sus referencias de API, pasando de la inferencia externa a pplx-api, lo que supone un ahorro de 600 000 dólares al año.
Perplexity lo logra implementando su solución pplx-api en las instancias de Amazon P4d. En el ámbito del hardware, las GPU NVIDIA A100 subyacentes son una opción rentable y fiable para escalar GPU con un rendimiento increíble. Perplexity también ha demostrado que, al aprovechar las GPU NVIDIA H100 y la precisión de FP8 en las instancias de Amazon P5, pueden reducir su latencia a la mitad y aumentar el rendimiento en un 200 por ciento en comparación con las GPU NVIDIA A100 que utilizan la misma configuración.
La optimización del software que se ejecuta en la GPU ayuda a maximizar aún más el rendimiento. NVIDIA TensorRT-LLM, una biblioteca de código abierto que acelera y optimiza la inferencia de LLM, facilita estas optimizaciones para implementaciones como FlashAttention y la atención multicabecabecado (MHA) para el contexto y las fases de generación de ejecución de modelos de LLM. También proporciona una capa flexible de personalización para parámetros clave, como el tamaño de los lotes, la cuantificación y el paralelismo de tensores. TensorRT-LLM se incluye como parte de NVIDIA AI Enterprise, que proporciona una plataforma de software de grado de producción, robusta y de extremo a extremo para empresas que crean e implementan software de IA acelerado.
Finalmente, para abordar la escalabilidad, Perplexity utiliza la robusta integración de AWS con Kubernetes para escalar elásticamente más allá de cientos de GPU y, en última instancia, minimizar el tiempo de inactividad y la sobrecarga de red.
El enfoque de inferencia de IA de pila completa de NVIDIA juega un papel crucial a la hora de satisfacer las exigentes demandas de aplicaciones en tiempo real. Desde las GPU H100 y A100 a las optimizaciones de NVIDIA TensorRT-LLM, la infraestructura subyacente que mueva la API pplx de Perplexity libera tanto ganancias de rendimiento como ahorro de costes para desarrolladores.
Puede obtener más información sobre Perplexity en AWS on Air, donde hablan en profundidad de su producto.
Perplexity es miembro de NVIDIA Inception, un programa gratuito que fomenta el desarrollo de las empresas emergentes que revolucionan sus sectores a través de avances tecnológicos.
¿Qué es NVIDIA Inception?
Beneficios del programa NVIDIA Inception
Únase a la red global de NVIDIA Inception con más de 15 000 empresas emergentes del sector tecnológico.