KI-Inferenz

NVIDIA Dynamo

Schnelle Skalierung und Verarbeitung von generativer KI.

Jetzt starten

Pressemitteilung lesen | Tech-Blog lesen

Überblick
Merkmale
Vorteile
Einstiegsoptionen
Anwendungsfälle
Kundenreferenzen
Ressourcen
Nächste Schritte

Überblick

Überblick
Merkmale
Vorteile
Einstiegsoptionen
Anwendungsfälle
Kundenreferenzen
Ressourcen
Nächste Schritte

Jetzt starten

Überblick

Verteilte Inferenz mit geringer Latenz
für generative KI

NVIDIA Dynamo ist ein modulares Open-Source-Inferenz-Framework für die Verarbeitung generativer KI-Modelle in verteilten Umgebungen. NVIDIA Dynamo ermöglicht mit dynamischer Ressourcenzuteilung, intelligenter Weiterleitung von Abfragen, optimiertem Speichermanagement und beschleunigter Datenübertragung eine nahtlose Skalierung von Inferenz-Workloads auf große GPU-Pools.

Bei der Verarbeitung des Open-Source-Reasoning-Modells DeepSeek-R1 671B mit NVIDIA GB200 NVL72 erhöhte NVIDIA Dynamo die Anzahl der verarbeiteten Abfragen auf das bis zu 30-Fache. Das macht NVIDIA Dynamo zur idealen Lösung für KI-Fabriken, bei denen es um möglichst kostengünstigen Betrieb geht, um die Generierung von Token-Umsatz zu maximieren.

NVIDIA Dynamo unterstützt alle bedeutenden KI-Inferenz-Backends und bietet Optimierungen für große Sprachmodelle (LLM), wie entkoppelte Verarbeitung, was die Beschleunigung und Skalierung von KI-Reasoning-Modellen bei geringsten Kosten und höchster Effizienz ermöglicht. Dynamo wird in einer zukünftigen Version als Teil von NVIDIA AI Enterprise unterstützt werden.

Was ist verteilte Inferenz?

Verteilte Inferenz nennt man die Aufteilung der KI-Modell-Inferenz auf mehrere Computereinheiten oder Knoten, um den Durchsatz durch Parallelisierung der Verarbeitung zu maximieren.

Dieses Konzept ermöglicht durch die Verteilung von Workloads auf GPUs oder die Cloud-Infrastruktur eine effiziente Skalierung für große KI-Anwendungen wie generative KI. Verteilte Inferenz verbessert die Gesamtleistung und die Auslastung der Ressourcen dadurch, dass die Benutzer die Latenz und den Durchsatz den Erfordernissen des jeweiligen Workloads entsprechend optimieren können.

Eigenschaften

Funktionen von NVIDIA Dynamo

Entkoppelte Verarbeitung

Teilt die Phasen für den LLM-Kontext (Prefill) und die Erzeugung (Dekodierung) auf separate GPUs auf, was eine maßgeschneiderte Modellparallelisierung und unabhängige GPU-Zuweisung ermöglicht, um die pro GPU verarbeiteten Abfragen zu erhöhen.

GPU Planner

Überwacht die GPU-Kapazität in Umgebungen für verteilte Inferenz und weist GPU-Prozesse in den Kontext- und Generierungsphasen dynamisch zu, um Engpässe zu beseitigen und die Leistung zu optimieren.

Smart Router

Leitet den Inferenz-Datenverkehr effizient weiter, wodurch die kostspielige Neuberechnung von sich wiederholenden oder überlappenden Abfragen minimiert wird, um die Rechenressourcen zu schonen und gleichzeitig für eine ausgewogene Lastverteilung auf große GPU-Pools zu sorgen.

NIXL Low-Latency-Communication-Bibliothek

Beschleunigt den Datentransport in Umgebungen für verteilte Inferenz und vereinfacht gleichzeitig die ansonsten aufwändige Übertragung über unterschiedliche Hardware wie GPUs, CPUs, Netzwerke und Massenspeicher.

Vorteile

Vorteile von NVIDIA Dynamo

Nahtlose Skalierung von einer einzelnen GPU auf Tausende GPUs

Optimieren und automatisieren Sie die Einrichtung von GPU-Clustern mit vorgefertigten, einfach zu implementierenden Tools, und ermöglichen Sie die dynamische automatische Skalierung mit LLM-spezifischen Echtzeit-Kennwerten, um eine Über- oder Unterdimensionierung von GPU-Ressourcen zu vermeiden.

Erhöhung der Inferenz-Verarbeitungskapazität bei gleichzeitiger Kostenreduzierung

Nutzen Sie hochentwickelte Optimierungen für die LLM-Inferenz-Verarbeitung wie entkoppelte Verarbeitung, um die Anzahl der verarbeiteten Inferenz-Abfragen zu erhöhen, ohne das Benutzererlebnis zu beeinträchtigen.

Machen Sie Ihre KI-Infrastruktur zukunftssicher und vermeiden Sie kostspielige Migrationen

Das offene und modulare Design ermöglicht es Ihnen, ganz einfach die Komponenten für die Inferenz-Verarbeitung auszuwählen, die Ihren individuellen Anforderungen entsprechen, und so die Kompatibilität mit Ihrer bestehenden KI-Struktur sicherzustellen und kostspielige Migrationsprojekte zu vermeiden.

Verkürzen Sie die Zeitspanne bis zur Bereitstellung neuer KI-Modelle im Produktivbetrieb

Dadurch, dass NVIDIA Dynamo alle bedeutenden Frameworks unterstützt – einschließlich TensorRT-LLM, vLLM, SGLang, PyTorch usw. – können Sie neue generative KI-Modelle unabhängig von ihrem Backend schnell bereitstellen.

Beschleunigte verteilte Inferenz

NVIDIA Dynamo ist vollständig Open Source, was Ihnen volle Transparenz und Flexibilität bietet. Setzen Sie NVIDIA Dynamo ein, tragen Sie zu seiner Weiterentwicklung bei und integrieren Sie Dynamo nahtlos in Ihre vorhandene Lösung.

Sehen Sie es sich auf GitHub an und werden Sie Teil der Community!

Jetzt starten

Entwickeln

Für Einzelpersonen, die für die Entwicklung Zugriff auf den Open-Source-Code von Triton Inference Server wünschen.

Zugangscode

Entwickeln

Für Einzelpersonen, die für die Entwicklung auf kostenlose Triton-Inference-Server-Container zugreifen möchten.

Container anfordern

Benutzererlebnis

Greifen Sie auf die von NVIDIA gehostete Infrastruktur und die geführten praktischen Übungen mit schrittweisen Anleitungen und Beispielen zu, die kostenlos auf NVIDIA LaunchPad verfügbar sind.

Zu den praktischen Übungen

Bereitstellen

Fordern Sie eine kostenlose Lizenz an, um NVIDIA AI Enterprise 90 Tage lang im Produktivbetrieb mit Ihrer bestehenden Infrastruktur zu testen.

90-Tage-Lizenz anfordern

Anwendungsfälle

Bereitstellung von KI mit NVIDIA Dynamo

Erfahren Sie, wie Sie mit NVIDIA Dynamo die Innovation vorantreiben können.

Verarbeitung von Reasoning-Modellen
Verteilte Inferenz
Skalierbare KI-Agenten
Code-Generierung

Verarbeitung von Reasoning-Modellen

Reasoning-Modelle erzeugen mehr Token, um komplexe Probleme zu lösen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diese Modelle mit Funktionen wie entkoppelter Verarbeitung. Bei diesem Konzept werden die Prefill- und Dekodierungsphasen bei der Verarbeitung auf verschiedene GPUs aufgeteilt, was es KI-Inferenz-Teams ermöglicht, jede Phase unabhängig zu optimieren. Das führt zu einer besseren Auslastung der Ressourcen, mehr verarbeiteten Abfragen pro GPU und zu geringeren Inferenzkosten.

Verteilte Inferenz

Wenn KI-Modelle zu groß für einen einzelnen Knoten werden, wird ihre effiziente Verarbeitung zum Problem. Verteilte Inferenz erfordert, dass Modelle auf mehrere Knoten aufgeteilt werden, was die Orchestrierung, Skalierung und Kommunikation noch komplexer macht. Damit diese Knoten – insbesondere bei dynamischen Workloads – als zusammenhängende Einheit funktionieren, bedarf es einer sorgfältigen Verwaltung. NVIDIA Dynamo vereinfacht diese Aufgabe durch vorgefertigte Funktionen auf Kubernetes, die nahtlos die Ressourcenzuteilung, Skalierung und Verarbeitung abwickeln, damit Sie sich auf die Bereitstellung von KI konzentrieren können, anstatt auf die Verwaltung der Infrastruktur.

Skalierbare KI-Agenten

KI-Agenten sind auf mehrere Modelle angewiesen – LLMs, Retrieval-Systeme und spezialisierte Tools – die in Echtzeit synchronisiert agieren. Die Skalierung dieser Agenten ist eine komplexe Aufgabe und erfordert eine intelligente GPU-Zuteilung und effiziente Key-Value-Cache-Verwaltung sowie Kommunikation mit extrem niedriger Latenz, um ein schnelles Reaktionsverhalten zu sichern.
NVIDIA Dynamo optimiert diesen Prozess mit integrierter intelligenter GPU-Zuteilung (GPU Planner), intelligenter Weiterleitung (Smart Router) und einer Low-Latency-Communication-Bibliothek, was die Skalierung von KI-Agenten unproblematisch und effizient macht.

Code-Generierung

Die Generierung von Programmcode erfordert oft eine iterative Verfeinerung, um Prompts anzupassen, Anforderungen zu klären oder die Ausgabe basierend auf den Antworten des Modells zu debuggen. Dieses Hin und Her macht es notwendig, den Kontext bei jeder Eingabe des Benutzers neu zu berechnen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diesen Prozess, indem es die Wiederverwendung von Kontext und sein Verlagern in kostengünstigen Arbeitsspeicher ermöglicht, was die kostspielige Neuberechnung minimiert und die Gesamtkosten für die Inferenz senkt.

Kundenreferenzen

Was Branchenführer über NVIDIA Dynamo sagen

Mehr Erfolgsgeschichten

Cohere

„Die Skalierung hochentwickelter KI-Modelle erfordert eine ausgefeilte Multi-GPU-Zuteilung, nahtlose Koordination und Low-Latency-Communication-Bibliotheken, die Reasoning-Kontexte nahtlos in Arbeits- und Datenspeicher übertragen. Wir gehen davon aus, dass Dynamo uns helfen wird, unseren Unternehmenskunden ein erstklassiges Benutzererlebnis zu bieten.“ Saurabh Baji, Senior Vice President of Engineering bei Cohere

Perplexity AI

„Wir verarbeiten Hunderte Millionen von Abfragen pro Monat und verlassen uns auf die GPUs und die Inferenz-Software von NVIDIA, um die Leistung, Zuverlässigkeit und Skalierbarkeit zu bieten, die unser Geschäft und unsere Benutzer erfordern. Wir sind gespannt darauf, Dynamo mit seinen verbesserten Funktionen für verteilte Verarbeitung zu nutzen, um die Effizienz der Inferenz-Verarbeitung noch zu steigern und die geforderte Verarbeitungskapazität für neue KI-Reasoning-Modelle zu erfüllen.“ Denis Yarats, CTO von Perplexity AI.

Together AI

„Eine kostengünstige Skalierung von Reasoning-Modellen erfordert neue fortgeschrittene Inferenz-Techniken, einschließlich entkoppelter Verarbeitung und kontextsensitiver Weiterleitung. Together AI bietet mithilfe seiner proprietären Inferenz-Engine branchenführende Leistung. Die Offenheit und Modularität von Dynamo wird uns ermöglichen, seine Komponenten nahtlos an unsere Engine anzuschließen, um mehr Abfragen zu verarbeiten und gleichzeitig die Auslastung der Ressourcen zu optimieren – und damit maximalen Nutzen aus unseren Investitionen in beschleunigtes Computing zu ziehen. " Ce Zhang, CTO von Together AI.

Cohere

„Die Skalierung hochentwickelter KI-Modelle erfordert eine ausgefeilte Multi-GPU-Zuteilung, nahtlose Koordination und Low-Latency-Communication-Bibliotheken, die Reasoning-Kontexte nahtlos in Arbeits- und Datenspeicher übertragen. Wir gehen davon aus, dass NVIDIA Dynamo uns helfen wird, unseren Unternehmenskunden ein erstklassiges Benutzererlebnis zu bieten.“ Saurabh Baji, Senior Vice President of Engineering bei Cohere

Perplexity AI

„Wir verarbeiten Hunderte Millionen von Abfragen pro Monat und verlassen uns auf die GPUs und die Inferenz-Software von NVIDIA, um die Leistung, Zuverlässigkeit und Skalierbarkeit zu bieten, die unser Geschäft und unsere Benutzer erfordern. Wir sind gespannt darauf, NVIDIA Dynamo mit seinen verbesserten Funktionen für verteilte Verarbeitung zu nutzen, um die Effizienz der Inferenz-Verarbeitung noch zu steigern und die geforderte Verarbeitungskapazität für neue KI-Reasoning-Modelle zu erfüllen.“ Denis Yarats, CTO von Perplexity AI.

Together AI

„Eine kostengünstige Skalierung von Reasoning-Modellen erfordert neue fortgeschrittene Inferenz-Techniken, einschließlich entkoppelter Verarbeitung und kontextsensitiver Weiterleitung. Together AI bietet mithilfe seiner proprietären Inferenz-Engine branchenführende Leistung. Die Offenheit und Modularität von NVIDIA Dynamo wird uns ermöglichen, seine Komponenten nahtlos an unsere Engine anzuschließen, um mehr Abfragen zu verarbeiten und gleichzeitig die Auslastung der Ressourcen zu optimieren – und damit maximalen Nutzen aus unseren Investitionen in beschleunigtes Computing zu ziehen.“ Ce Zhang, CTO von Together AI.

Anwender

Führende Anwender in allen Branchen

Kunden
Integrationen im Technologieumfeld

Ressourcen

Aktuelles zur NVIDIA-Inferenzplattform

Blogs
Vorträge
Schulungen
Videos

Aktuelle Infos erhalten

Informieren Sie sich über die neuesten Updates und Ankündigungen zum Thema NVIDIA Dynamo Inference Server.

Alle Inferenz-Blogs anzeigen

Technische Blogs

Lesen Sie technische Anleitungen für den Einstieg in die KI-Inferenz.

Alle technischen Blogs zu LLM-Inferenz anzeigen

Informieren Sie sich genauer

Informieren Sie sich anhand von Tipps und bewährten Methoden für die Bereitstellung, den Betrieb und die Skalierung von KI-Modellen für Inferenz mit generativer KI, LLMs, Empfehlungssystemen, Computer Vision usw.

Jetzt lesen

Alle Blogs anzeigen

Bereitstellung, Optimierung und Benchmarking von LLMs

Informieren Sie sich anhand einer schrittweisen Anleitung über die effiziente Verarbeitung von LLMs. Wir zeigen, wie man ein LLM ohne großen Aufwand auf mehreren Backends bereitstellen und ihre Leistung vergleichen kann und wie man die Konfigurationen für die Bereitstellung anpasst, um optimale Leistung zu erzielen.

On-Demand-GTC-Vortrag ansehen

KI-Anwendungsfälle von der Entwicklung in den Produktivbetrieb

Anwendungsfälle für Unternehmens-KI von der Entwicklung in den Produktivbetrieb überführen

Erfahren Sie, was KI-Inferenz ist, wie sie in die KI-Bereitstellungsstrategie Ihres Unternehmens passt, welches die größten Herausforderungen bei der Bereitstellung von Unternehmens-KI sind, warum eine ganzheitliche KI-Inferenz-Lösung erforderlich ist, um diese Herausforderungen zu meistern, welches die Hauptbestandteile einer ganzheitlichen Plattform sind und wie Sie Ihre erste KI-Inferenz-Lösung bereitstellen können.

On-Demand-Vortrag ansehen

Nutzen Sie die Leistungsfähigkeit von Cloud-fähigen KI-Inferenz-Lösungen

Erfahren Sie, wie sich die NVIDIA KI-Inferenz-Plattform nahtlos in das Angebot führender Cloud-Service-Anbieter integrieren lässt, was die Bereitstellung vereinfacht und die Einführung von LLM-gestützten KI-Anwendungsfällen beschleunigt.

On-Demand-Vortrag ansehen

Mehr Vorträge anzeigen

Kurzanleitung

Ist NVIDIA Dynamo noch neu für Sie, und möchten Sie Ihr Modell schnell bereitstellen? Nutzen Sie diese Kurzanleitung, um NVIDIA Dynamo kennenzulernen.

Jetzt lesen

Tutorials

Beim Einstieg in NVIDIA Dynamo können viele Fragen aufkommen. Machen Sie sich anhand dieser Ressourcen mit den Funktionen von NVIDIA Dynamo vertraut. Leitfäden und Beispiele können Ihnen die Umstellung erleichtern.

Jetzt lesen

NVIDIA LaunchPad

In praktischen Übungen lernen Sie schnelle und skalierbare KI mit NVIDIA Dynamo kennen. Sie können sofort die Vorteile der beschleunigten Computing-Infrastruktur von NVIDIA nutzen und Ihre KI-Workloads skalieren.

Jetzt kennenlernen

5 Hauptgründe, warum NVIDIA Dynamo die Inferenz vereinfacht

NVIDIA Dynamo Inference Server vereinfacht die Bereitstellung von umfangreichen KI-Modellen im Produktivbetrieb, wobei Teams trainierte KI-Modelle aus einem beliebigen Framework von einem lokalen Datenspeicher oder einer Cloud-Plattform auf einer GPU- oder CPU-basierten Infrastruktur bereitstellen können.

Jetzt ansehen

Triton für die mühelose Bereitstellung der Stable-Diffusion-Pipeline

Einsatz der Stable-Diffusion-Pipeline von HuggingFace mit NVIDIA Dynamo

In diesem Video wird die Bereitstellung der in der HuggingFace-Diffuser-Bibliothek verfügbaren Stable-Diffusion-Pipeline gezeigt. Wir verwenden NVIDIA Dynamo Inference Server, um die Pipeline zu implementieren und zu benutzen.

Jetzt ansehen

Erste Schritte mit NVIDIA Triton Inference Server

Erste Schritte mit NVIDIA Dynamo Inference Server

NVIDIA Dynamo ist eine Open-Source-Inferenz-Lösung für die standardisierte Modellbereitstellung und ermöglicht eine schnelle und skalierbare KI im Produktivbetrieb. Angesichts der vielen Funktionen ist es nur natürlich zu fragen: Wo soll ich anfangen? Schauen Sie zu und finden Sie es heraus.

Jetzt ansehen

Mehr Videos ansehen

Nächste Schritte

Sind Sie bereit?

Laden Sie das Framework von GitHub herunter und werden Sie Teil der Community!

Für Entwickler

Informieren Sie sich über alles, was Sie für den Einstieg in die Entwicklung mit NVIDIA Dynamo benötigen, einschließlich der neuesten Dokumentation, Tutorials, technischen Blogs und mehr.

Mit der Entwicklung starten

Kontaktieren Sie uns

Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.

Kontakt

Erfahren Sie, wie Snapchat Triton nutzt, um das Einkaufserlebnis zu verbessern

Sehen Sie, wie Triton Model Analyzer die Modellbereitstellung optimiert

Leitfaden zum Performance-Analyzer für generative KI

Informieren Sie sich über die Verarbeitung von Modell-Pipelines auf Triton mit Ensemble-Modellen

Bereitstellung auf Amazon SageMaker

Bereitstellung auf Google Vertex AI

Bereitstellung auf Azure ML Studio

Bereitstellung auf Oracle Cloud

Pressemitteilung lesen | Tech-Blog lesen

Blogs
Vorträge
Schulungen
Videos

Aktuelle Infos erhalten

Informieren Sie sich über die neuesten Updates und Ankündigungen zum Thema Dynamo Inference Server.

Alle Dynamo-Blogs anzeigen

Technische Blogs

Lesen Sie technische Anleitungen für den Einstieg in die KI-Inferenz.

Alle technischen Blogs zu LLM-Inferenz anzeigen

Informieren Sie sich genauer

Jetzt lesen

Alle Blogs anzeigen

Bereitstellung, Optimierung und Benchmarking von LLMs

On-Demand-GTC-Vortrag ansehen

Anwendungsfälle für Unternehmens-KI von der Entwicklung in den Produktivbetrieb überführen

On-Demand-Vortrag ansehen

Nutzen Sie die Leistungsfähigkeit von Cloud-fähigen KI-Inferenz-Lösungen

On-Demand-Vortrag ansehen

Mehr Vorträge anzeigen

Kurzanleitung

Ist Dynamo noch neu für Sie, und möchten Sie Ihr Modell schnell bereitstellen? Nutzen Sie diese Kurzanleitung, um Dynamo kennenzulernen.

Jetzt lesen

Tutorials

Beim Einstieg in Dynamo können viele Fragen aufkommen. Machen Sie sich anhand dieser Ressourcen mit den Funktionen von Dynamo vertraut. Leitfäden und Beispiele können Ihnen die Umstellung erleichtern.

Jetzt lesen

NVIDIA LaunchPad

Jetzt kennenlernen

Alle Blogs anzeigen

5 Hauptgründe, warum Dynamo die Inferenz vereinfacht

Jetzt ansehen

Einsatz der Stable-Diffusion-Pipeline von HuggingFace mit Dynamo

In diesem Video wird die Bereitstellung der in der HuggingFace-Diffuser-Bibliothek verfügbaren Stable-Diffusion-Pipeline gezeigt. Wir verwenden Dynamo Inference Server, um die Pipeline zu implementieren und zu benutzen.

Jetzt ansehen

Erste Schritte mit NVIDIA Dynamo Inference Server

Dynamo Inference Server ist eine Open-Source-Inferenz-Lösung für die standardisierte Modellbereitstellung und ermöglicht eine schnelle und skalierbare KI im Produktivbetrieb. Angesichts der vielen Funktionen ist es nur natürlich zu fragen: Wo soll ich anfangen? Schauen Sie zu und finden Sie es heraus.

Jetzt ansehen

Alle Blogs anzeigen

NVIDIA Dynamo

Überblick

Verteilte Inferenz mit geringer Latenzfür generative KI

Was ist verteilte Inferenz?

Eigenschaften

Funktionen von NVIDIA Dynamo

Entkoppelte Verarbeitung

GPU Planner

Smart Router

NIXL Low-Latency-Communication-Bibliothek

Vorteile

Vorteile von NVIDIA Dynamo

Nahtlose Skalierung von einer einzelnen GPU auf Tausende GPUs

Erhöhung der Inferenz-Verarbeitungskapazität bei gleichzeitiger Kostenreduzierung

Machen Sie Ihre KI-Infrastruktur zukunftssicher und vermeiden Sie kostspielige Migrationen

Verkürzen Sie die Zeitspanne bis zur Bereitstellung neuer KI-Modelle im Produktivbetrieb

Beschleunigte verteilte Inferenz

Entwickeln

Entwickeln

Benutzererlebnis

Bereitstellen

Anwendungsfälle

Bereitstellung von KI mit NVIDIA Dynamo

Verarbeitung von Reasoning-Modellen

Skalierbare KI-Agenten

Code-Generierung

Kundenreferenzen

Was Branchenführer über NVIDIA Dynamo sagen

Cohere

Perplexity AI

Together AI

Cohere

Perplexity AI

Together AI

Anwender

Führende Anwender in allen Branchen

Ressourcen

Aktuelles zur NVIDIA-Inferenzplattform

Aktuelle Infos erhalten

Technische Blogs

Informieren Sie sich genauer

Nächste Schritte

Sind Sie bereit?

Für Entwickler

Kontaktieren Sie uns

Aktuelle Infos erhalten

Technische Blogs

Informieren Sie sich genauer

Verteilte Inferenz mit geringer Latenz
für generative KI