KI-Inferenz

NVIDIA Dynamo

Schnelle Skalierung und Verarbeitung von generativer KI.

Überblick

Verteilte Inferenz mit geringer Latenz
für generative KI

NVIDIA Dynamo ist ein modulares Open-Source-Inferenz-Framework für die Verarbeitung generativer KI-Modelle in verteilten Umgebungen. NVIDIA Dynamo ermöglicht mit dynamischer Ressourcenzuteilung, intelligenter Weiterleitung von Abfragen, optimiertem Speichermanagement und beschleunigter Datenübertragung eine nahtlose Skalierung von Inferenz-Workloads auf große GPU-Pools.

Bei der Verarbeitung des Open-Source-Reasoning-Modells DeepSeek-R1 671B mit NVIDIA GB200 NVL72 erhöhte NVIDIA Dynamo die Anzahl der verarbeiteten Abfragen auf das bis zu 30-Fache. Das macht NVIDIA Dynamo zur idealen Lösung für KI-Fabriken, bei denen es um möglichst kostengünstigen Betrieb geht, um die Generierung von Token-Umsatz zu maximieren.

NVIDIA Dynamo unterstützt alle bedeutenden KI-Inferenz-Backends und bietet Optimierungen für große Sprachmodelle (LLM), wie entkoppelte Verarbeitung, was die Beschleunigung und Skalierung von KI-Reasoning-Modellen bei geringsten Kosten und höchster Effizienz ermöglicht. Dynamo wird in einer zukünftigen Version als Teil von NVIDIA AI Enterprise unterstützt werden.

Was ist verteilte Inferenz?

Verteilte Inferenz nennt man die Aufteilung der KI-Modell-Inferenz auf mehrere Computereinheiten oder Knoten, um den Durchsatz durch Parallelisierung der Verarbeitung zu maximieren. 

Dieses Konzept ermöglicht durch die Verteilung von Workloads auf GPUs oder die Cloud-Infrastruktur eine effiziente Skalierung für große KI-Anwendungen wie generative KI. Verteilte Inferenz verbessert die Gesamtleistung und die Auslastung der Ressourcen dadurch, dass die Benutzer die Latenz und den Durchsatz den Erfordernissen des jeweiligen Workloads entsprechend optimieren können.

Eigenschaften

Funktionen von NVIDIA Dynamo

Symbol für entkoppelte Verarbeitung

Entkoppelte Verarbeitung

Teilt die Phasen für den LLM-Kontext (Prefill) und die Erzeugung (Dekodierung) auf separate GPUs auf, was eine maßgeschneiderte Modellparallelisierung und unabhängige GPU-Zuweisung ermöglicht, um die pro GPU verarbeiteten Abfragen zu erhöhen.

Symbol für GPU Planner

GPU Planner

Überwacht die GPU-Kapazität in Umgebungen für verteilte Inferenz und weist GPU-Prozesse in den Kontext- und Generierungsphasen dynamisch zu, um Engpässe zu beseitigen und die Leistung zu optimieren.

Smart Router

Smart Router

Leitet den Inferenz-Datenverkehr effizient weiter, wodurch die kostspielige Neuberechnung von sich wiederholenden oder überlappenden Abfragen minimiert wird, um die Rechenressourcen zu schonen und gleichzeitig für eine ausgewogene Lastverteilung auf große GPU-Pools zu sorgen.

Dateisymbol

NIXL Low-Latency-Communication-Bibliothek

Beschleunigt den Datentransport in Umgebungen für verteilte Inferenz und vereinfacht gleichzeitig die ansonsten aufwändige Übertragung über unterschiedliche Hardware wie GPUs, CPUs, Netzwerke und Massenspeicher.

Vorteile

Vorteile von NVIDIA Dynamo

Symbol für Skalierbarkeit

Nahtlose Skalierung von einer einzelnen GPU auf Tausende GPUs

Optimieren und automatisieren Sie die Einrichtung von GPU-Clustern mit vorgefertigten, einfach zu implementierenden Tools, und ermöglichen Sie die dynamische automatische Skalierung mit LLM-spezifischen Echtzeit-Kennwerten, um eine Über- oder Unterdimensionierung von GPU-Ressourcen zu vermeiden.

Symbol für die Verarbeitung

Erhöhung der Inferenz-Verarbeitungskapazität bei gleichzeitiger Kostenreduzierung

Nutzen Sie hochentwickelte Optimierungen für die LLM-Inferenz-Verarbeitung wie entkoppelte Verarbeitung, um die Anzahl der verarbeiteten Inferenz-Abfragen zu erhöhen, ohne das Benutzererlebnis zu beeinträchtigen.

Symbol für Kontrollkästchen

Machen Sie Ihre KI-Infrastruktur zukunftssicher und vermeiden Sie kostspielige Migrationen

Das offene und modulare Design ermöglicht es Ihnen, ganz einfach die Komponenten für die Inferenz-Verarbeitung auszuwählen, die Ihren individuellen Anforderungen entsprechen, und so die Kompatibilität mit Ihrer bestehenden KI-Struktur sicherzustellen und kostspielige Migrationsprojekte zu vermeiden.

Symbol für iterativen Prozess

Verkürzen Sie die Zeitspanne bis zur Bereitstellung neuer KI-Modelle im Produktivbetrieb

Dadurch, dass NVIDIA Dynamo alle bedeutenden Frameworks unterstützt – einschließlich TensorRT-LLM, vLLM, SGLang, PyTorch usw. – können Sie neue generative KI-Modelle unabhängig von ihrem Backend schnell bereitstellen.

Beschleunigte verteilte Inferenz

NVIDIA Dynamo ist vollständig Open Source, was Ihnen volle Transparenz und Flexibilität bietet. Setzen Sie NVIDIA Dynamo ein, tragen Sie zu seiner Weiterentwicklung bei und integrieren Sie Dynamo nahtlos in Ihre vorhandene Lösung.

 Sehen Sie es sich auf GitHub an und werden Sie Teil der Community!

Entwickeln

Für Einzelpersonen, die für die Entwicklung Zugriff auf den Open-Source-Code von Triton Inference Server wünschen.

Entwickeln

Für Einzelpersonen, die für die Entwicklung auf kostenlose Triton-Inference-Server-Container zugreifen möchten.

Benutzererlebnis

Greifen Sie auf die von NVIDIA gehostete Infrastruktur und die geführten praktischen Übungen mit schrittweisen Anleitungen und Beispielen zu, die kostenlos auf NVIDIA LaunchPad verfügbar sind.

Bereitstellen

Fordern Sie eine kostenlose Lizenz an, um NVIDIA AI Enterprise 90 Tage lang im Produktivbetrieb mit Ihrer bestehenden Infrastruktur zu testen.  

Anwendungsfälle

Bereitstellung von KI mit NVIDIA Dynamo

Erfahren Sie, wie Sie mit NVIDIA Dynamo die Innovation vorantreiben können.

Verarbeitung von Reasoning-Modellen

Reasoning-Modelle erzeugen mehr Token, um komplexe Probleme zu lösen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diese Modelle mit Funktionen wie entkoppelter Verarbeitung. Bei diesem Konzept werden die Prefill- und Dekodierungsphasen bei der Verarbeitung auf verschiedene GPUs aufgeteilt, was es KI-Inferenz-Teams ermöglicht, jede Phase unabhängig zu optimieren. Das führt zu einer besseren Auslastung der Ressourcen, mehr verarbeiteten Abfragen pro GPU und zu geringeren Inferenzkosten.

Verarbeitung von KI-Reasoning-Modellen

Kundenreferenzen

Was Branchenführer über NVIDIA Dynamo sagen

Cohere

Cohere

„Die Skalierung hochentwickelter KI-Modelle erfordert eine ausgefeilte Multi-GPU-Zuteilung, nahtlose Koordination und Low-Latency-Communication-Bibliotheken, die Reasoning-Kontexte nahtlos in Arbeits- und Datenspeicher übertragen. Wir gehen davon aus, dass Dynamo uns helfen wird, unseren Unternehmenskunden ein erstklassiges Benutzererlebnis zu bieten.“  Saurabh Baji, Senior Vice President of Engineering bei Cohere

Perplexity

Perplexity AI

„Wir verarbeiten Hunderte Millionen von Abfragen pro Monat und verlassen uns auf die GPUs und die Inferenz-Software von NVIDIA, um die Leistung, Zuverlässigkeit und Skalierbarkeit zu bieten, die unser Geschäft und unsere Benutzer erfordern. Wir sind gespannt darauf, Dynamo mit seinen verbesserten Funktionen für verteilte Verarbeitung zu nutzen, um die Effizienz der Inferenz-Verarbeitung noch zu steigern und die geforderte Verarbeitungskapazität für neue KI-Reasoning-Modelle zu erfüllen.“ Denis Yarats, CTO von Perplexity AI.

together.ai

Together AI

„Eine kostengünstige Skalierung von Reasoning-Modellen erfordert neue fortgeschrittene Inferenz-Techniken, einschließlich entkoppelter Verarbeitung und kontextsensitiver Weiterleitung. Together AI bietet mithilfe seiner proprietären Inferenz-Engine branchenführende Leistung. Die Offenheit und Modularität von Dynamo wird uns ermöglichen, seine Komponenten nahtlos an unsere Engine anzuschließen, um mehr Abfragen zu verarbeiten und gleichzeitig die Auslastung der Ressourcen zu optimieren – und damit maximalen Nutzen aus unseren Investitionen in beschleunigtes Computing zu ziehen. " Ce Zhang, CTO von Together AI.

Cohere

Cohere

„Die Skalierung hochentwickelter KI-Modelle erfordert eine ausgefeilte Multi-GPU-Zuteilung, nahtlose Koordination und Low-Latency-Communication-Bibliotheken, die Reasoning-Kontexte nahtlos in Arbeits- und Datenspeicher übertragen. Wir gehen davon aus, dass NVIDIA Dynamo uns helfen wird, unseren Unternehmenskunden ein erstklassiges Benutzererlebnis zu bieten.“  Saurabh Baji, Senior Vice President of Engineering bei Cohere

Perplexity

Perplexity AI

„Wir verarbeiten Hunderte Millionen von Abfragen pro Monat und verlassen uns auf die GPUs und die Inferenz-Software von NVIDIA, um die Leistung, Zuverlässigkeit und Skalierbarkeit zu bieten, die unser Geschäft und unsere Benutzer erfordern. Wir sind gespannt darauf, NVIDIA Dynamo mit seinen verbesserten Funktionen für verteilte Verarbeitung zu nutzen, um die Effizienz der Inferenz-Verarbeitung noch zu steigern und die geforderte Verarbeitungskapazität für neue KI-Reasoning-Modelle zu erfüllen.“ Denis Yarats, CTO von Perplexity AI.

Together.ai

Together AI

„Eine kostengünstige Skalierung von Reasoning-Modellen erfordert neue fortgeschrittene Inferenz-Techniken, einschließlich entkoppelter Verarbeitung und kontextsensitiver Weiterleitung. Together AI bietet mithilfe seiner proprietären Inferenz-Engine branchenführende Leistung. Die Offenheit und Modularität von NVIDIA Dynamo wird uns ermöglichen, seine Komponenten nahtlos an unsere Engine anzuschließen, um mehr Abfragen zu verarbeiten und gleichzeitig die Auslastung der Ressourcen zu optimieren – und damit maximalen Nutzen aus unseren Investitionen in beschleunigtes Computing zu ziehen.“  Ce Zhang, CTO von Together AI.

Anwender

Führende Anwender in allen Branchen

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
Infosys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Ressourcen

Aktuelles zur NVIDIA-Inferenzplattform

Aktuelle Infos erhalten

Aktuelle Infos erhalten

Informieren Sie sich über die neuesten Updates und Ankündigungen zum Thema NVIDIA Dynamo Inference Server.

Technische Blogs

Technische Blogs

Lesen Sie technische Anleitungen für den Einstieg in die KI-Inferenz.

Informieren Sie sich genauer

Informieren Sie sich genauer

Informieren Sie sich anhand von Tipps und bewährten Methoden für die Bereitstellung, den Betrieb und die Skalierung von KI-Modellen für Inferenz mit generativer KI, LLMs, Empfehlungssystemen, Computer Vision usw.

Nächste Schritte

Sind Sie bereit?

Laden Sie das Framework von GitHub herunter und werden Sie Teil der Community!

Piktogramm

Für Entwickler

Informieren Sie sich über alles, was Sie für den Einstieg in die Entwicklung mit NVIDIA Dynamo benötigen, einschließlich der neuesten Dokumentation, Tutorials, technischen Blogs und mehr.

Piktogramm

Kontaktieren Sie uns

Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.

Pressemitteilung lesen | Tech-Blog lesen

Aktuelle Infos erhalten

Aktuelle Infos erhalten

Informieren Sie sich über die neuesten Updates und Ankündigungen zum Thema Dynamo Inference Server.

Technische Blogs

Technische Blogs

Lesen Sie technische Anleitungen für den Einstieg in die KI-Inferenz.

Informieren Sie sich genauer

Informieren Sie sich genauer

Informieren Sie sich anhand von Tipps und bewährten Methoden für die Bereitstellung, den Betrieb und die Skalierung von KI-Modellen für Inferenz mit generativer KI, LLMs, Empfehlungssystemen, Computer Vision usw.

Select Location
Middle East