Lösungen für KI-Inferenz

Schnellere, genauere KI-Inferenz

Profitieren Sie von bahnbrechender Leistung auf Rechenzentrumsniveau mit KI-unterstützten Anwendungen und Services.

Software entdecken

E-Book herunterladen | Leistungsbenchmarks | Für Entwickler

Überblick
Vorteile
Software
Hardware
Anwendungsfälle
Erfolgsgeschichten
Ressourcen
Die nächsten Schritte

Überblick
Vorteile
Software
Hardware
Anwendungsfälle
Erfolgsgeschichten
Ressourcen
Die nächsten Schritte

Jetzt loslegen

Überblick

Was ist eine intelligente Methode zum Skalieren von KI-Inferenz?

Ein Satz Token für die Antwort. Das wird als KI-Inferenz bezeichnet. Wenn Modelle in Größe und Komplexität zunehmen, benötigen Unternehmen einen Full-Stack-Ansatz sowie End-to-End-Tools, um in dieser neuen Ära der KI-Skalierungsgesetze erfolgreich zu sei

Weil Reasoning-Modelle exponentiell mehr KI-Token generieren, steigt die Nachfrage nach Rechenleistung. Um diese zu bedienen, sind KI-Fabriken erforderlich, die auf maximale Leistung, Effizienz und ROI über verschiedene Branchen hinweg ausgelegt sind und auf speziell entwickelten Infrastrukturen basieren, die mit NVIDIA Blackwell für Inferenz in großem Maßstab optimiert wurden.

Die Full-Stack-Optimierung von Inferenzen ist der Schlüssel, um KI clever und im großen Stil zu skalieren.

Mixture of Experts unterstützt die intelligentesten Frontier-KI-Modelle und läuft 10x schneller auf NVIDIA Blackwell NVL72

Erfahren Sie, warum das extrem fähige Co-Design von NVIDIA Blackwell NVL72 das einzige Rack-Scale-System ist, das eine 10-fache Steigerung der Inferenzleistung in einer Vielzahl von Mixture-of-Experts-Modellen (MoE) möglich macht, darunter Kimi K2 Thinking, DeepSeek-R1 und Mistral Large 3.

Ankündigung lesen

AWS, Google, Microsoft und OCI steigern die KI-Inferenzleistung für Cloud-Kunden mit NVIDIA Dynamo

NVIDIA Dynamo arbeitet mit Kubernetes, um die Verwaltung von KI-Inferenzen sowohl für Einzel- als auch für Multi-Knoten zu optimieren. NVIDIA Grove, eine neue API in NVIDIA Dynamo, orchestriert die Systeminferenz anhand einer einzigen, übergeordneten Spezifikation. Dynamo lässt sich in verwaltete Kubernetes-Services aller führenden Cloud-Anbieter integrieren, wodurch Kunden die Skalierung in NVIDIA Blackwell ermöglicht wird.

Blogbeitrag lesen

NVIDIA Blackwell maximiert den ROI bei KI-Inferenz

NVIDIA Blackwell ermöglicht die höchsten Umsätze im Bereich von KI-Fabriken, einschließlich eines bis zu 15-fachen ROI. Dies ist das Ergebnis eines umfassenden gemeinsamen Designs von NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei niedriger Präzision und NVIDIA Dynamo und TensorRT™-LLM für Geschwindigkeit und Flexibilität – sowie der Entwicklung mit Community-Frameworks SGLang, vLLM und anderen.

Die Ergebnisse von DeepSeek-R1 8K/1K zeigen einen 15-fachen Leistungsvorteil und Umsatzpotenzial für NVIDIA Blackwell GB200 NVL72 gegenüber Hopper H200.

NVIDIA TensorRT-LLM erzielt einen maximalen Durchsatz von 60.000 TPS/GPU, eine maximale Interaktivität von 1.000 TPS/Benutzer und eine 5-fache Leistungssteigerung in zwei Monaten auf gpt-oss-120b.

Vorteile

Informieren Sie sich über die Vorteile von NVIDIA AI für beschleunigte Inferenz

Standardisierte Bereitstellung

Standardisieren Sie die Modellbereitstellung für Anwendungen, KI-Frameworks, Modellarchitekturen und Plattformen.

Integration und Skalierung mit Leichtigkeit

Profitieren Sie von einer einfachen Integration in Tools und Plattformen in Public Clouds, in lokalen Rechenzentren und im Edge-Bereich.

Niedrigere Kosten.

Erzielen Sie hohen Durchsatz und hohe Auslastung der KI-Infrastruktur und senken Sie dadurch die Kosten.

Hohe Leistung

Erleben Sie branchenführende Leistung mit der Plattform, die wiederholt mehrere Rekorde in MLPerf aufgestellt hat

, dem führenden Benchmark für KI in der Branche.

Software

Entdecken Sie unsere KI-Inferenz-Software

NVIDIA AI Enterprise besteht aus NVIDIA NIM™, NVIDIA Triton™ Inference Server, NVIDIA® TensorRT™ und anderen Tools, die das Entwickeln, Freigeben und Bereitstellen von KI-Anwendungen vereinfachen. Mit Unterstützung, Stabilität, Verwaltbarkeit und Sicherheit auf Enterprise-Niveau können Unternehmen die Zeit bis zur Wertschöpfung (Time-to-Value) verkürzen und ungeplante Ausfallzeiten vermeiden.

Dynamisches Skalieren und Bereitstellen von KI mit verteilter Inferenz

NVIDIA Dynamo ist eine Open-Source-Inferenzsoftware zur Beschleunigung der Bereitstellung von KI-Modellen im KI-Fabrik-Maßstab. Mithilfe von disaggregiertem Serving unterteilt Dynamo Inferenzaufgaben in kleinere Komponenten und leitet Workloads dynamisch an die zu diesem Zeitpunkt optimalen Rechenressourcen weiter.

Erfahren Sie mehr über NVIDIA Dynamo

Die nächste Generation der KI-Agenten

NVIDIA NIM beinhaltet eine Reihe von einfach zu bedienenden Mikroservices, die für die sichere und zuverlässige Bereitstellung von hochleistungsfähigen KI-Modellinferenzen in Clouds, Rechenzentren und Workstations entwickelt wurden.

Mehr über NVIDIA NIM erfahren

Ein SDK für branchenführende Inferenzleistung

TensorRT-LLM ist eine Open-Source-Bibliothek für hochleistungsfähige Echtzeit-LLM-Inferenz auf NVIDIA-GPUs. Mit einer modularen Python-Runtime, PyTorch-nativem Authoring und einer stabilen Produktions-API wurde sie optimiert, um den Durchsatz zu maximieren, die Kosten zu minimieren und ein schnelles Benutzererlebnis zu ermöglichen.

Erfahren Sie mehr über TensorRT-LLM

NVIDIA DGX Cloud Serverlose Inferenz

Eine leistungsstarke serverlose KI-Inferenzlösung, die für beschleunigte KI-Innovationen mit automatischer Skalierung, kosteneffizienter GPU-Auslastung, Multi-Cloud-Flexibilität und nahtloser Skalierbarkeit sorgt.

Erfahren Sie mehr über DGX Cloud Serverlose Inferenz

Hardware

Lernen Sie unsere KI-Inferenz-Infrastruktur kennen

Profitieren Sie von beispielloser KI-Leistung mit der NVIDIA KI-Inferenzsoftware, die für NVIDIA-beschleunigte Infrastruktur optimiert ist. Die Technologien von NVIDIA Blackwell Ultra, H200 GPU, NVIDIA RTX PRO™ 6000 Blackwell Server-Edition und NVIDIA RTX™ sorgen für außergewöhnliche Geschwindigkeit und Effizienz für KI-Inferenz-Workloads in Rechenzentren, Clouds und Workstations.

NVIDIA GB300 NVL72

Die Nachfrage nach KI-Inferenz steigt – und NVIDIA Blackwell Ultra wurde entwickelt, um den heutigen Anforderungen gerecht zu werden. Mit einer Leistung von 1,4 ExaFLOPS in einem einzigen Rack vereint die NVIDIA GB300 NVL72 72 NVIDIA Blackwell Ultra-GPUs mit NVIDIA NVLink™ und NVFP4, um massive Modelle mit höchster Effizienz zu betreiben. Dadurch wird die Produktionsleistung in der KI-Fabrik um das 50-Fache gesteigert, während die Token-Kosten gesenkt und Echtzeit-Schlussfolgerungen in großem Maßstab beschleunigt werden.

Erfahren Sie mehr über GB300 NVL72

NVIDIA H200 GPU

Die NVIDIA H200 GPU – Teil der NVIDIA Hopper-Plattform – optimiert generative KI- und HPC-Workloads (High-Performance-Computing) mit bahnbrechenden Leistungen und Speicherkapazitäten. Als erste GPU mit HBM3e unterstützt der größere und schnellere Speicher der H200 die Beschleunigung von generativer KI und großen Sprachmodellen (LLMs) und gleichzeitig das wissenschaftliche Rechnen für HPC-Workloads.

Mehr über H200

NVIDIA RTX PRO 6000 Blackwell Server-Edition

Die RTX PRO 6000 Blackwell Server-Edition-GPU bietet eine superstarke Inferenzleistung für eine Vielzahl von KI-Modellen und erzielt eine bis zu 5-mal höhere Leistung für unternehmensweite und generative KI-Anwendungen im Vergleich zur NVIDIA L40S der vorherigen Generation. NVIDIA RTX PRO™-Server, die bei globalen Systempartnern erhältlich sind, bringen die Leistung und Effizienz der Blackwell-Architektur in jedes Rechenzentrum von Unternehmen.

Weitere Informationen zur RTX PRO 6000 Blackwell Server-Edition

NVIDIA RTX PRO 6000 Blackwell Workstation-Edition

Die RTX PRO 6000 Blackwell Workstation-Edition ist die erste Desktop-GPU mit 96 GB GPU-Speicher. Die Leistung der Blackwell GPU-Architektur in Kombination mit dem großen GPU-Speicher und dem NVIDIA AI-Software-Stack ermöglicht es RTX PRO-gestützten Workstations, außergewöhnliche Beschleunigung für generative KI und LLM-Inferenz direkt auf dem Desktop zu liefern.

Erfahren Sie mehr über die RTX PRO 6000 Blackwell Workstation-Edition

Entdecken Sie die Geschichte hinter KI in großem Maßstab

Haben Sie sich jemals gefragt, wie sich komplexe KI-Kompromisse in realen Ergebnissen niederschlagen? Entdecken Sie verschiedene Punkte auf den nachfolgenden Leistungskurven, um aus erster Hand zu erfahren, wie sich Innovationen in den Bereichen Hardware und Bereitstellungskonfigurationen auf die Effizienz von Rechenzentren und das Benutzererlebnis auswirken.

TPS/Benutzer

–

TPS/MW

–

Simuliertes Chat-Erlebnis

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 mit FP4 Dynamo Disaggregation. H100 mit FP8 In-Flight-Batching. Die projizierte Leistung kann Änderungen unterliegen.

Möchten Sie wissen, wie sich jede einzelne Konfiguration auf reale Benutzererlebnisse auswirkt? Entdecken Sie die Kurven allein oder mit Anleitung von TJ, indem Sie auf „Mit TJ entdecken“ klicken, und sehen Sie, wie sie im simulierten Chat auf der rechten Seite zum Leben erweckt werden.

Entdecken Sie mehr mit NVIDIA Dynamo AI Configurator

Erfolgsgeschichten

Wie Branchenführer mit KI-Inferenz Innovationen vorantreiben

Mehr Erfolgsgeschichten

Amdocs

Leistung der generativen KI verstärken und Kosten senken

Lesen Sie, wie Amdocs mit NVIDIA DGX™ Cloud und NVIDIA NIM-Inferenz-Microservices amAIz, eine fachspezifische Generative-KI-Plattform für Telekommunikationsunternehmen, entwickelt hat, um die Latenz zu verbessern, Genauigkeit zu erhöhen und Kosten zu senken.

Anwendungsbeispiel lesen

Snapchat

Verbesserter Modeeinkauf durch KI

Erfahren Sie, wie Snapchat das Einkaufserlebnis für Kleidung und die optische Zeichenerkennung auch von Emojis mit Triton Inference Server verbessert hat, um sein Geschäft zu skalieren, Kosten zu reduzieren und die Zeit bis zum Produktivbetrieb zu verkürzen.

Anwendungsbeispiel lesen

Amazon

Steigerung der Kundenzufriedenheit

Erfahren Sie, wie Amazon die Kundenzufriedenheit dank 5-mal so schneller Inferenz mit TensorRT erhöhen konnte.

Anwendungsbeispiel lesen

Ressourcen

Aktuelle Ressourcen für KI-Inferenz

Blogs
Veranstaltungen
Schulungen
Videos

Mehr Blogs anzeigen

Mehr Veranstaltungen anzeigen

Erste Schritte mit Inferenz auf NVIDIA LaunchPad

Haben Sie schon ein KI-Projekt? Bewerben Sie sich, um in einer Umgebung für das Testen und Prototyping Ihrer KI-Lösungen praktische Erfahrungen zu sammeln.

Jetzt bewerben

Lernpfade für generative KI und LLM nutzen

Verbessern Sie Ihre technischen Fähigkeiten in generativer KI und großen Sprachmodellen mit unseren umfassenden Lernpfaden.

Jetzt kennenlernen

Einstieg in die Inferenz mit generativer KI auf NVIDIA LaunchPad

Kommen Sie durch direkten, kurzfristigen Zugang zu NVIDIA NIM-Inferenz-Microservices und KI-Modellen schneller bei Ihrer Arbeit mit generativer KI voran – kostenlos.

Jetzt loslegen

Mehr Schulungen anzeigen

Mehr Videos ansehen

Die nächsten Schritte

Sind Sie bereit?

Informieren Sie sich über alles, was Sie benötigen, um mit der Entwicklung Ihrer KI-Anwendung zu beginnen, einschließlich der neuesten Dokumentation, Tutorials, technischer Blogs und mehr.

Kontaktieren Sie uns

Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.

Kontakt

Erfahren Sie das Neueste über NVIDIA AI

Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.

Bleiben Sie auf dem Laufenden

Nächste Schritte

Sind Sie bereit für die ersten Schritte?

Finden Sie alles, was Sie für die Entwicklung eigener KI-Anwendungen brauchen, u. a. die neueste Dokumentation, Tutorials, technische Blogs und mehr.

Mit der Entwicklung starten Start Building

Kontaktieren Sie uns

Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.

Kontakt

Erhalten Sie aktuelle Informationen zu NVIDIA KI-Inferenz

Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen zu Unternehmenslösungen von NVIDIA erhalten.

Auf dem Laufenden bleiben

Schnellere, genauere KI-Inferenz

Überblick

Was ist eine intelligente Methode zum Skalieren von KI-Inferenz?

Mixture of Experts unterstützt die intelligentesten Frontier-KI-Modelle und läuft 10x schneller auf NVIDIA Blackwell NVL72

AWS, Google, Microsoft und OCI steigern die KI-Inferenzleistung für Cloud-Kunden mit NVIDIA Dynamo

NVIDIA Blackwell maximiert den ROI bei KI-Inferenz

Vorteile

Informieren Sie sich über die Vorteile von NVIDIA AI für beschleunigte Inferenz

Standardisierte Bereitstellung

Integration und Skalierung mit Leichtigkeit

Niedrigere Kosten.

Hohe Leistung

Software

Entdecken Sie unsere KI-Inferenz-Software

Dynamisches Skalieren und Bereitstellen von KI mit verteilter Inferenz

Die nächste Generation der KI-Agenten

Ein SDK für branchenführende Inferenzleistung

NVIDIA DGX Cloud Serverlose Inferenz

Hardware

Lernen Sie unsere KI-Inferenz-Infrastruktur kennen

NVIDIA GB300 NVL72

NVIDIA H200 GPU

NVIDIA RTX PRO 6000 Blackwell Server-Edition

NVIDIA RTX PRO 6000 Blackwell Workstation-Edition

Entdecken Sie die Geschichte hinter KI in großem Maßstab

Erfolgsgeschichten

Wie Branchenführer mit KI-Inferenz Innovationen vorantreiben

Leistung der generativen KI verstärken und Kosten senken

Verbesserter Modeeinkauf durch KI

Steigerung der Kundenzufriedenheit

Ressourcen

Aktuelle Ressourcen für KI-Inferenz

Erste Schritte mit Inferenz auf NVIDIA LaunchPad

Lernpfade für generative KI und LLM nutzen

Einstieg in die Inferenz mit generativer KI auf NVIDIA LaunchPad

Die nächsten Schritte

Sind Sie bereit?

Kontaktieren Sie uns

Erfahren Sie das Neueste über NVIDIA AI

Nächste Schritte

Sind Sie bereit für die ersten Schritte?

Kontaktieren Sie uns

Erhalten Sie aktuelle Informationen zu NVIDIA KI-Inferenz

Erfahren Sie aktuelle Neuheiten von NVIDIA zu KI-Inferenz