Überblick

Was ist KI-Inferenz?

KI-Inferenz ist der Vorgang, bei dem vortrainierte KI-Modelle eingesetzt werden, um neue Daten zu generieren, und bei dem eine KI Ergebnisse als Grundlage für Innovationen in jeder Branche liefert. KI-Modelle wachsen rasant im Hinblick auf ihre Größe, Komplexität und Vielfalt und verschieben die Grenzen des Möglichen. Für den erfolgreichen Einsatz von KI-Inferenz benötigen Unternehmen ein umfassendes Konzept, das den End-to-End-KI-Lebenszyklus unterstützt, und Tools, die es Teams ermöglichen, ihre Ziele zu erreichen.

Einsatz generativer KI im Produktivbetrieb

Informieren Sie sich über die wichtigsten Überlegungen bei der Bereitstellung und Skalierung generativer KI im Produktivbetrieb, einschließlich der entscheidenden Rolle der KI-Inferenz.

Vorteile

Informieren Sie sich über die Vorteile von NVIDIA AI für beschleunigte Inferenz

Standardisierte Bereitstellung

Standardisierte Bereitstellung

Standardisieren Sie die Modellbereitstellung für Anwendungen, KI-Frameworks, Modellarchitekturen und Plattformen.

Integration und Skalierung mit Leichtigkeit

Integration und Skalierung mit Leichtigkeit

Profitieren Sie von einer einfachen Integration in Tools und Plattformen in Public Clouds, in lokalen Rechenzentren und im Edge-Bereich.

Niedrigere Kosten.

Niedrigere Kosten.

Erzielen Sie hohen Durchsatz und hohe Auslastung der KI-Infrastruktur und senken Sie dadurch die Kosten.

Hohe Leistung

Hohe Leistung

Erleben Sie branchenführende Leistung mit der Plattform, die wiederholt mehrere Rekorde in MLPerf aufgestellt hat

, dem führenden Benchmark für KI in der Branche.

Software

Entdecken Sie unsere KI-Inferenz-Software

NVIDIA AI Enterprise besteht aus NVIDIA NIM™, NVIDIA Triton™ Inference Server, NVIDIA® TensorRT™ und anderen Tools, die das Entwickeln, Freigeben und Bereitstellen von KI-Anwendungen vereinfachen. Mit Unterstützung, Stabilität, Verwaltbarkeit und Sicherheit auf Enterprise-Niveau können Unternehmen die Zeit bis zur Wertschöpfung (Time-to-Value) verkürzen und ungeplante Ausfallzeiten vermeiden.

NVIDIA NIM – Generative KI sofort einsetzen

Der schnellste Weg zur Inferenz mit generativer KI

NVIDIA NIM umfasst eine Reihe von einfach zu nutzenden Microservices, die für die sichere und zuverlässige Bereitstellung von hochleistungsfähigen KI-Modell-Inferenzen in Clouds, Rechenzentren und Workstations entwickelt wurden.

NVIDIA Triton Inference Server für alle KI-Workloads

Einheitlicher Inferenzserver für alle Ihre KI-Workloads

NVIDIA Triton Inference Server ist eine Open-Source-Inferenzserver-Software, die Unternehmen dabei unterstützt, die Infrastruktur für das Inferenz-Serving mit maßgeschneiderten KI-Modellen zu konsolidieren, die Zeit für die Bereitstellung neuer KI-Modelle im Produktivbetrieb zu verkürzen und die Kapazität für KI-Inferenz und -Vorhersage zu erhöhen.

NVIDIA TensorRT

Ein SDK zur Optimierung von Inferenz und Runtime

NVIDIA TensorRT beinhaltet eine Inferenz-Laufzeitumgebung und Modelloptimierungen, die geringe Latenz und hohen Durchsatz für Produktivanwendungen bieten. Das TensorRT-System umfasst TensorRT, TensorRT-LLM, TensorRT Model Optimizer und TensorRT Cloud.

Hardware

Lernen Sie unsere KI-Inferenz-Infrastruktur kennen

Mit der für NVIDIA-beschleunigte Infrastrukturen optimierten NVIDIA-AI-Inferenz-Software erhalten Sie unvergleichliche KI-Leistung. NVIDIA H200, L40S und NVIDIA RTX™ bieten außergewöhnliche Schnelligkeit und Effizienz für KI-Inferenz-Workloads in Rechenzentren, Clouds und Workstations.

H200 steigert die Leistung generativer KI

NVIDIA H200 Tensor Core GPU

Die NVIDIA H200 Tensor Core GPU sorgt mit bahnbrechenden Funktions- und Speichereigenschaften für hervorragende Leistung bei generativer KI und beim High-Performance-Computing (HPC). Als erste GPU mit HBM3e unterstützt der größere und schnellere Speicher der H200 die Beschleunigung von generativer KI und großen Sprachmodellen (LLMs) und gleichzeitig das wissenschaftliche Rechnen für HPC-Workloads.

NVIDIA L40S GPU

NVIDIA L40S GPU

Die Kombination von NVIDIAs gesamtem Paket an Inferenz-Serving-Software mit der L40S-GPU stellt eine leistungsstarke Plattform für trainierte Modelle dar, die für Inferenz bereit sind. Dank der Unterstützung struktureller Sparsity und einer breiten Auswahl an Genauigkeiten liefert die L40S bis zu 1,7-fache Inferenzleistung der NVIDIA A100 Tensor Core GPU.

NVIDIA RTX-Technologie macht KI im Visual Computing verfügbar

NVIDIA RTX-Technologie

NVIDIA RTX-Technologie macht KI im Visual Computing verfügbar und beschleunigt Kreativanwendungen durch Automatisierung von Aufgaben und Optimierung rechenintensiver Prozesse. Mit der Leistungsfähigkeit der CUDA®-Recheneinheiten liefert RTX Verbesserungen für Echtzeit-Rendering, KI, Grafik und Rechenleistung.

Anwendungsfälle

Wie KI-Inferenz eingesetzt wird

Erfahren Sie, inwiefern NVIDIA AI branchenspezifische Anwendungsfälle unterstützt, und starten Sie Ihre KI-Entwicklung mit ausgesuchten Beispielen.

Digitale Menschen

NVIDIA ACE ist eine Sammlung von Techniken, die Entwicklern helfen, digitale Menschen zum Leben zu erwecken. Mehrere ACE-Microservices sind NVIDIA NIMs – einfach zu implementierende, hochleistungsfähige Microservices, die für die Ausführung mit KI-PCs auf Basis von NVIDIA RTX oder im NVIDIA Graphics Delivery Network (GDN) optimiert sind, einem globalen Netzwerk von GPUs, das die Verarbeitung digitaler Menschen mit geringer Latenz in 100 Ländern bereitstellt. 

Digitale Avatare mit generativer KI erstellen

Erfolgsgeschichten

Wie Branchenführer mit KI-Inferenz Innovationen vorantreiben

KI-Plattform für Telekommunikationsunternehmen, mit NVIDIA DGX Cloud
Amdocs

Leistung der generativen KI verstärken und Kosten senken

Lesen Sie, wie Amdocs mit NVIDIA DGX™ Cloud und NVIDIA NIM-Inferenz-Microservices amAIz, eine fachspezifische Generative-KI-Plattform für Telekommunikationsunternehmen, entwickelt hat, um die Latenz zu verbessern, Genauigkeit zu erhöhen und Kosten zu senken.

Optische Zeichenerkennung mit Triton-Inferenz
Snapchat

Verbesserter Modeeinkauf durch KI

Erfahren Sie, wie Snapchat das Einkaufserlebnis für Kleidung und die optische Zeichenerkennung auch von Emojis mit Triton Inference Server verbessert hat, um sein Geschäft zu skalieren, Kosten zu reduzieren und die Zeit bis zum Produktivbetrieb zu verkürzen.

5x schnellere Inferenz mit TensorRT
Amazon

Steigerung der Kundenzufriedenheit

Erfahren Sie, wie Amazon die Kundenzufriedenheit dank 5-mal so schneller Inferenz mit TensorRT erhöhen konnte.

Ressourcen

Aktuelle Ressourcen für KI-Inferenz

Die nächsten Schritte

Sind Sie bereit?

Informieren Sie sich über alles, was Sie benötigen, um mit der Entwicklung Ihrer KI-Anwendung zu beginnen, einschließlich der neuesten Dokumentation, Tutorials, technischer Blogs und mehr.

Kontaktieren Sie uns

Kontaktieren Sie uns

Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.

Erfahren Sie das Neueste über NVIDIA AI

Erfahren Sie das Neueste über NVIDIA AI

Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.