Perplexity möchte Entwicklern die Integration hoch entwickelter Open-Source-LLMs (großer Sprachmodelle) in ihre Projekte mit pplx-api erleichtern, einem effizienten API-Tool, das von NVIDIA-GPUs unterstützt und für schnelle Inferenz mit NVIDIA® TensorRT™-LLM optimiert ist.
Perplexity
AWS
Generative KI/LLMs
NVIDIA TensorRT-LLM
NVIDIA H100 Tensor Core GPUs
NVIDIA A100 Tensor Core GPUs
Für Echtzeit-Anwendungen ist die Bereitstellung schneller und effizienter LLM-Inferenz von entscheidender Bedeutung.
Perplexity bietet mit pplx-api eine API, die für den Zugriff auf bekannte LLMs mit blitzschnell möglicher Inferenz und einer stabilen Infrastruktur entwickelt wurde. Pplx-api ist für Entwickler konzipiert, die Open-Source-LLMs in ihre Projekte integrieren möchten und dafür ausgelegt, den Datenverkehr im Produktivbetrieb zu bewältigen. Gegenwärtig wird die API in P4d-Instanzen von Amazon Elastic Compute Cloud (Amazon EC2) bereitgestellt, die von NVIDIA A100 Tensor Core GPUs unterstützt und mit NVIDIA TensorRT-LLM weiter beschleunigt werden. Demnächst wird Perplexity einen vollständigen Wechsel zu Amazon-P5-Instanzen mit NVIDIA H100 Tensor Core GPUs vollziehen.
Perplexity steht bei der Bereitstellung von LLMs für sein Hauptprodukt, das speziell für die Suche angepasste Versionen verschiedener Open-Source-Modelle bereitstellt, vor mehreren Herausforderungen. Als Start-up war es ein großes Problem, die steigenden Kosten im Zusammenhang mit LLM-Inferenz zu managen, um das schnelle Wachstum von Perplexity zu unterstützen.
Nachdem die LLM-Inferenz-Plattform pplx-api im Oktober 2023 als öffentliche Betaversion von Perplexity freigegeben wurde, musste Perplexity seine Infrastruktur optimieren, um mit möglichst geringen Kosten eine massive Skalierung zu erzielen und strenge SLA-Bedingungen (Service Level Agreement) weiterhin zu erfüllen.
Dazu kommt, dass Community-LLMs explosionsartig anwachsen. Unternehmen jeglicher Größe müssen sich schnell diesen Innovationen anpassen und auf eine optimierte Infrastruktur aufbauen, um komplexe Modelle effizient bereitzustellen. Dies treibt die Kosten nach oben und steigert die Komplexität der Bereitstellung, weshalb ein optimiertes Full-Stack-Konzept für überzeugende Leistungseigenschaften von LLM-gestützten Anwendungen unerlässlich ist.
Image courtesy of Perplexity.
Perplexity nutzt die Leistungsfähigkeit von NVIDIAs Hardware und Software, um diese Herausforderung zu lösen. Durch die Bereitstellung von Ergebnissen schneller als man lesen kann, kann pplx-api im Vergleich zu anderen Bereitstellungsplattformen eine bis zu 3,1-fache geringere Latenz und bis zu 4,3-fache geringere
Latenz beim ersten Token erreichen. Perplexity konnte die Kosten um das Vierfache senken, indem sie einfach ihre externen Inferenz-Serving-API-Referenzen auf pplx-api umschaltete, was zu Einsparungen von 600.000 USD pro Jahr führte.
Perplexity erreicht
dies, indem sie ihre pplx-api-Lösung auf Amazon P4d-Instanzen bereitstellt. Auf Hardware-Ebene sind die zugrunde liegenden NVIDIA A100-GPUs eine kostengünstige und zuverlässige Option für die Skalierung von
GPUs mit unglaublicher Leistung. Perplexity hat auch gezeigt, dass durch die Nutzung von NVIDIA H100-GPUs und FP8-Präzision auf Amazon
P5-Instanzen
Perplexity ist Mitglied von NVIDIA Inception, einem kostenlosen Programm zur Förderung von Start-ups, die Branchen mit technologischen Fortschritten revolutionieren.
Was ist NVIDIA Inception?
Vorteile des NVIDIA Inception-Programms:
Schließen Sie sich dem weltweiten Netzwerk von NVIDIA Inception mit über 15.000 Tech-Start-ups an.