KI-Inferenz
Schnelle Skalierung und Verarbeitung von generativer KI.
NVIDIA Dynamo ist ein modulares Open-Source-Inferenz-Framework für die Verarbeitung generativer KI-Modelle in verteilten Umgebungen. NVIDIA Dynamo ermöglicht mit dynamischer Ressourcenzuteilung, intelligenter Weiterleitung von Abfragen, optimiertem Speichermanagement und beschleunigter Datenübertragung eine nahtlose Skalierung von Inferenz-Workloads auf große GPU-Pools.
Bei der Verarbeitung des Open-Source-Reasoning-Modells DeepSeek-R1 671B mit NVIDIA GB200 NVL72 erhöhte NVIDIA Dynamo die Anzahl der verarbeiteten Abfragen auf das bis zu 30-Fache. Das macht NVIDIA Dynamo zur idealen Lösung für KI-Fabriken, bei denen es um möglichst kostengünstigen Betrieb geht, um die Generierung von Token-Umsatz zu maximieren.
NVIDIA Dynamo unterstützt alle bedeutenden KI-Inferenz-Backends und bietet Optimierungen für große Sprachmodelle (LLM), wie entkoppelte Verarbeitung, was die Beschleunigung und Skalierung von KI-Reasoning-Modellen bei geringsten Kosten und höchster Effizienz ermöglicht. Dynamo wird in einer zukünftigen Version als Teil von NVIDIA AI Enterprise unterstützt werden.
Teilt die Phasen für den LLM-Kontext (Prefill) und die Erzeugung (Dekodierung) auf separate GPUs auf, was eine maßgeschneiderte Modellparallelisierung und unabhängige GPU-Zuweisung ermöglicht, um die pro GPU verarbeiteten Abfragen zu erhöhen.
Überwacht die GPU-Kapazität in Umgebungen für verteilte Inferenz und weist GPU-Prozesse in den Kontext- und Generierungsphasen dynamisch zu, um Engpässe zu beseitigen und die Leistung zu optimieren.
Leitet den Inferenz-Datenverkehr effizient weiter, wodurch die kostspielige Neuberechnung von sich wiederholenden oder überlappenden Abfragen minimiert wird, um die Rechenressourcen zu schonen und gleichzeitig für eine ausgewogene Lastverteilung auf große GPU-Pools zu sorgen.
Beschleunigt den Datentransport in Umgebungen für verteilte Inferenz und vereinfacht gleichzeitig die ansonsten aufwändige Übertragung über unterschiedliche Hardware wie GPUs, CPUs, Netzwerke und Massenspeicher.
Optimieren und automatisieren Sie die Einrichtung von GPU-Clustern mit vorgefertigten, einfach zu implementierenden Tools, und ermöglichen Sie die dynamische automatische Skalierung mit LLM-spezifischen Echtzeit-Kennwerten, um eine Über- oder Unterdimensionierung von GPU-Ressourcen zu vermeiden.
Nutzen Sie hochentwickelte Optimierungen für die LLM-Inferenz-Verarbeitung wie entkoppelte Verarbeitung, um die Anzahl der verarbeiteten Inferenz-Abfragen zu erhöhen, ohne das Benutzererlebnis zu beeinträchtigen.
Das offene und modulare Design ermöglicht es Ihnen, ganz einfach die Komponenten für die Inferenz-Verarbeitung auszuwählen, die Ihren individuellen Anforderungen entsprechen, und so die Kompatibilität mit Ihrer bestehenden KI-Struktur sicherzustellen und kostspielige Migrationsprojekte zu vermeiden.
Dadurch, dass NVIDIA Dynamo alle bedeutenden Frameworks unterstützt – einschließlich TensorRT-LLM, vLLM, SGLang, PyTorch usw. – können Sie neue generative KI-Modelle unabhängig von ihrem Backend schnell bereitstellen.
NVIDIA Dynamo ist vollständig Open Source, was Ihnen volle Transparenz und Flexibilität bietet. Setzen Sie NVIDIA Dynamo ein, tragen Sie zu seiner Weiterentwicklung bei und integrieren Sie Dynamo nahtlos in Ihre vorhandene Lösung.
Sehen Sie es sich auf GitHub an und werden Sie Teil der Community!
Erfahren Sie, wie Sie mit NVIDIA Dynamo die Innovation vorantreiben können.
Reasoning-Modelle erzeugen mehr Token, um komplexe Probleme zu lösen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diese Modelle mit Funktionen wie entkoppelter Verarbeitung. Bei diesem Konzept werden die Prefill- und Dekodierungsphasen bei der Verarbeitung auf verschiedene GPUs aufgeteilt, was es KI-Inferenz-Teams ermöglicht, jede Phase unabhängig zu optimieren. Das führt zu einer besseren Auslastung der Ressourcen, mehr verarbeiteten Abfragen pro GPU und zu geringeren Inferenzkosten.
Laden Sie das Framework von GitHub herunter und werden Sie Teil der Community!
Informieren Sie sich über alles, was Sie für den Einstieg in die Entwicklung mit NVIDIA Dynamo benötigen, einschließlich der neuesten Dokumentation, Tutorials, technischen Blogs und mehr.
Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.