Baseten bietet eine optimierte Inferenzinfrastruktur, die auf NVIDIAs Hardware und Software basiert, um die Herausforderungen in Bezug auf Skalierbarkeit, Kosteneffizienz und Expertise in der Bereitstellung zu lösen.
Mit automatischen Skalierungsfunktionen ermöglicht Baseten seinen Kunden, ihre Modelle bereitzustellen, um die Anzahl der Replikate basierend auf Verbrauchertraffic und Service-Level-Vereinbarungen dynamisch anzupassen, um sicherzustellen, dass die Kapazität der Nachfrage entspricht, ohne dass manuelle Eingriffe erforderlich sind. Dies hilft bei der Kostenoptimierung, da die Infrastruktur von Baseten je nach Anzahl der Anfragen an das Modell leicht nach oben oder unten skaliert werden kann. Es entstehen nicht nur keine Kosten für die Kunden, wenn keine Aktivität vorliegt, sondern sobald eine Anfrage eingeht, benötigt die Baseten-Infrastruktur, die von NVIDIA-GPUs auf AWS EC2-Instanzen mit NVIDIA A100 Tensor Core-GPUs unterstützt wird, nur 5 bis 10 Sekunden, um das Modell in Betrieb zu nehmen. Dies ist eine unglaubliche Geschwindigkeitserhöhung bei Kaltstart, die zuvor bis zu 5 Minuten dauerte, d. h. es handelt sich um eine Beschleunigung um das 30- bis 60-Fache. Die Verbraucher können zudem aus einer Vielzahl von auf Baseten verfügbaren NVIDIA GPUs auswählen, um ihre Modellinferenz zu beschleunigen, einschließlich, aber nicht beschränkt auf NVIDIA A100, A10G, T4 und V100 Tensor Core GPUs.
A
ußerdem nutzt Baseten neben der NVIDIA Hardware auch NVIDIA Software. Durch den Einsatz der TensorRT-LLM-Funktion der Tensor-Parallelität, die auf AWS bereitgestellt wird, konnte Baseten seine Inferenzleistung für die TensorRT-LLM-Bereitstellung eines Kunden durch sein Open-Source-Framework Truss verdoppeln. Truss ist Basetens Open-Source-Pack- und Bereitstellungsbibliothek, welche es den Benutzern erlaubt, mühelos Modelle in der Produktion bereitzustellen.
TensorRT-LLM ist Teil von NVIDIA AI Enterprise, einer produktionstauglichen, sicheren End-To-End-Software-Plattform für Unternehmen, die beschleunigte KI-Software entwickeln und bereitstellen.
NVIDIAs Full-Stack-KI-Inferenzansatz spielt eine entscheidende Rolle darin, die ununterbrochene Nachfrage nach Basetens Echtzeit-Kundenanwendungen zu bedienen. Dank der Verbesserungen durch NVIDIA A100 GPUs und TensorRT-LLM, ermöglicht die zugrunde liegende Infrastruktur sowohl Leistungszuwachs als auch Kosteneinsparungen für Entwickler.
Entdecken Sie mehr über Baseten und sehen Sie sich dieses kurze Demo-Video über ihr Produkt an.