Cloud-Dienste

Optimierte KI-Inferenzinfrastruktur in der Cloud

Ziel

Baseten nutzt NVIDIA GPUs und NVIDIA® TensorRTTM-LLM, um eine Infrastruktur für maschinelles Lernen zu bieten, die leistungsstark, skalierbar und kostengünstig ist.

Kunde

Baseten

Partner

Baseten

Anwendungsfall

Generative KI / LLMs

Produkte

NVIDIA TensorRT-LLM
NVIDIA A100 Tensor Core GPU
NVIDIA A10 Tensor Core GPU

Basetens KI-Inferenzinfrastruktur

Die Mission von

Baseten ist einfach: Bereitstellung einer Infrastruktur für maschinelles Lernen (ML), die einfach funktioniert.

Mit Baseten haben Unternehmen das, was sie brauchen, um ML-Modelle für Echtzeitanwendungen leistungsfähig, skalierbar und kostengünstig bereitzustellen und zu bedienen. Kunden können mit ihren eigenen Modellen zu Baseten kommen oder aus einer Vielzahl von vorgefertigten Modellen wählen und sie in der Produktion bereitstellen. Diese Modelle werden auf Basetens Open-Source-Truss-Framework bereitgestellt und über ein benutzerfreundliches Dashboard verwaltet.

Mit NVIDIA GPU-beschleunigten Instanzen auf AWS, wie Amazon EC2 P4d-Instanzen, die von NVIDIA A100 Tensor Core-GPUs angetrieben werden, und mittels optimierter NVIDIA-Software, wie beispielsweise NVIDIA TensorRT-LLM, kann Baseten seine Mission von der Cloud aus erfüllen.

Image courtesy of Baseten

Image courtesy of Baseten

Herausforderungen bei der Inferenzbereitstellung

Baseten bewältigt mehrere Herausforderungen, mit denen sich seine Kunden bei der Modellbereitstellung konfrontiert sehen, insbesondere in Bezug auf Skalierbarkeit, Kosteneffizienz und Fachwissen.

Skalierbarkeit: Die Handhabung von KI-Infrastruktur, die unterschiedliche Nachfragen abdeckt, also von sporadischen individuellen Anfragen bis hin zu Tausenden von Anfragen mit hohem Traffic reicht, ist eine große Herausforderung. Die zugrunde liegende Infrastruktur muss sowohl dynamisch als auch reaktionsfähig sein und sich an Echtzeitanforderungen anpassen, ohne Verzögerungen zu verursachen oder manuelle Überwachung zu benötigen.

Kosteneffizienz: Die Nutzungsmaximierung der zugrunde liegenden NVIDIA-GPUs ist von entscheidender Bedeutung. Die KI-Inferenzinfrastruktur muss eine hohe Leistung bieten, ohne in Szenarien mit niedrigem bzw. hohem Traffic unnötige Kosten zu verursachen.

Expertise: Die Bereitstellung von ML-Modellen erfordert spezielle Fähigkeiten und ein tiefes Verständnis der zugrunde liegenden Infrastruktur. Diese Expertise kann knapp und kostspielig sein, was für all diejenigen Unternehmen eine Herausforderung darstellt, die ihre hochmodernen Inferenzfähigkeiten ohne erhebliche Investitionen in qualifiziertes Personal aufrechterhalten wollen.

Baseten powered by NVIDIA on AWS

Baseten bietet eine optimierte Inferenzinfrastruktur, die auf NVIDIAs Hardware und Software basiert, um die Herausforderungen in Bezug auf Skalierbarkeit, Kosteneffizienz und Expertise in der Bereitstellung zu lösen.

Mit automatischen Skalierungsfunktionen ermöglicht Baseten seinen Kunden, ihre Modelle bereitzustellen, um die Anzahl der Replikate basierend auf Verbrauchertraffic und Service-Level-Vereinbarungen dynamisch anzupassen, um sicherzustellen, dass die Kapazität der Nachfrage entspricht, ohne dass manuelle Eingriffe erforderlich sind. Dies hilft bei der Kostenoptimierung, da die Infrastruktur von Baseten je nach Anzahl der Anfragen an das Modell leicht nach oben oder unten skaliert werden kann. Es entstehen nicht nur keine Kosten für die Kunden, wenn keine Aktivität vorliegt, sondern sobald eine Anfrage eingeht, benötigt die Baseten-Infrastruktur, die von NVIDIA-GPUs auf AWS EC2-Instanzen mit NVIDIA A100 Tensor Core-GPUs unterstützt wird, nur 5 bis 10 Sekunden, um das Modell in Betrieb zu nehmen. Dies ist eine unglaubliche Geschwindigkeitserhöhung bei Kaltstart, die zuvor bis zu 5 Minuten dauerte, d. h.  es handelt sich um eine Beschleunigung um das 30- bis 60-Fache. Die Verbraucher können zudem aus einer Vielzahl von auf Baseten verfügbaren NVIDIA GPUs auswählen, um ihre Modellinferenz zu beschleunigen, einschließlich, aber nicht beschränkt auf NVIDIA A100, A10G, T4 und V100 Tensor Core GPUs.

A

ußerdem nutzt Baseten neben der NVIDIA Hardware auch NVIDIA Software. Durch den Einsatz der TensorRT-LLM-Funktion der Tensor-Parallelität, die auf AWS bereitgestellt wird, konnte Baseten seine Inferenzleistung für die TensorRT-LLM-Bereitstellung eines Kunden durch sein Open-Source-Framework Truss verdoppeln. Truss ist Basetens Open-Source-Pack- und Bereitstellungsbibliothek, welche es den Benutzern erlaubt, mühelos Modelle in der Produktion bereitzustellen.

TensorRT-LLM ist Teil von NVIDIA AI Enterprise, einer produktionstauglichen, sicheren End-To-End-Software-Plattform für Unternehmen, die beschleunigte KI-Software entwickeln und bereitstellen.

NVIDIAs Full-Stack-KI-Inferenzansatz spielt eine entscheidende Rolle darin, die ununterbrochene Nachfrage nach Basetens Echtzeit-Kundenanwendungen zu bedienen. Dank der Verbesserungen durch NVIDIA A100 GPUs und TensorRT-LLM, ermöglicht die zugrunde liegende Infrastruktur sowohl Leistungszuwachs als auch Kosteneinsparungen für Entwickler.

Entdecken Sie mehr über Baseten und sehen Sie sich dieses kurze Demo-Video über ihr Produkt an.

NVIDIA Inception-Programm

Baseten ist Mitglied von NVIDIA Inception, einem kostenlosen Programm zur Förderung von Start-ups, die Branchen mit technologischen Fortschritten revolutionieren. Als Vorteil von Inception erhielt Baseten frühen Zugriff auf TensorRT-LLM, was eine bedeutende Chance zur Entwicklung und Bereitstellung von Hochleistungslösungen darstellt.

Was ist NVIDIA Inception?

  • NVIDIA Inception ist ein kostenloses Programm, das Start-ups dabei unterstützt, sich schneller zu entwickeln, indem es ihnen die Möglichkeit bietet, mit Risikokapitalgebern in Kontakt zu treten und Zugriff auf die neuesten technischen Ressourcen von NVIDIA zu erhalten.

Vorteile des NVIDIA Inception-Programms

  • Im Gegensatz zu herkömmlichen Beschleunigern unterstützt NVIDIA Inception alle Phasen des Startup-Lebenszyklus. Wir arbeiten eng mit den Mitgliedern zusammen, um die besten technischen Tools sowie die neuesten Ressourcen und Möglichkeiten zum Austausch mit Investoren bereitzustellen.

Schließen Sie sich dem weltweiten Netzwerk von NVIDIA Inception mit über 15.000 Tech-Startups an.