Inferenz

NVIDIA Triton Inference Server

KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren.

Inferenz für jede KI-Workload

Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jede Workload standardisiert.

Bereitstellung, Optimierung und Benchmarking von LLMs

Schritt-für-Schritt-Anleitungen zur effizienten Bereitstellung großer Sprachmodelle (LLMs) mit Triton Inference Server.

Die Vorteile von Triton Inference Server

Supports All Training and Inference Frameworks

Unterstützt alle Frameworks für Training und Inferenz

Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.

High-Performance Inference on Any Platform

Hochleistungs-Inferenz auf jeder beliebigen Plattform

Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm-CPUs sowie AWS Inferentia.

Open Source and Designed for DevOps and MLOps

Quelloffen und entwickelt für DevOps und MLOps

Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps- Plattformen verwendet werden.

Enterprise-Grade Security and API Stability

Sicherheit, Verwaltbarkeit und API-Stabilität auf Unternehmensniveau

NVIDIA AI Enterprise, einschließlich NVIDIA Triton Inference Server, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen.

Entdecken Sie die Funktionen und Tools des NVIDIA Triton Inference Server

Supports All Training and Inference Frameworks

Inferenz für große Sprachmodelle

Triton bietet eine niedrige Latenz und einen hohen Durchsatz für die Inferenz mit großen Sprachmodellen (Large Language Models, LLM). Es unterstützt TensorRT-LLMs, eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von LLMs für die Inferenz in der Produktion.

High-Performance Inference on Any Platform

Modell-Ensembles

Triton Modell-Ensembles ermöglicht Ihnen die Ausführung von KI-Workloads mit mehreren Modellen, Pipelines sowie Vor- und Nachverarbeitungsschritten. Es können verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausgeführt werden und unterstützt somit mehrere Frameworks innerhalb des Ensembles.

Open Source and Designed for DevOps and MLOps

NVIDIA PyTriton

PyTriton ermöglicht Python-Entwicklern, Triton mit einer einzigen Codezeile aufzurufen und es zur Bereitstellung von Modellen, einfachen Verarbeitungsfunktionen oder ganzen Inferenzpipelines zu verwenden, um Prototyping und Tests zu beschleunigen.

Enterprise-Grade Security and API Stability

NVIDIA Triton Model Analyzer

Der Model Analyzer reduziert die Zeit, die benötigt wird, um die optimale Konfiguration für die Modellbereitstellung zu finden, z. B. für Batchgröße, Präzision und Instanzen für simultane Ausführung. Er hilft bei der Auswahl der optimalen Konfiguration, um Anwendungslatenz, Durchsatz und Speicheranforderungen zu erfüllen.

Führende Anwender in allen Branchen

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Erste Schritte mit NVIDIA Triton

Nutzen Sie die richtigen Tools, um KI für verschiedenste Anwendungen auf sämtlichen Plattformen bereitzustellen, auszuführen und zu skalieren.

Beginnen Sie mit der Entwicklung via Code oder Container

Für diejenigen, die für die Entwicklung auf den Open-Source-Code und die Container von Triton zugreifen möchten, gibt es zwei kostenlose Einstiegsmöglichkeiten:

Open-Source-Code verwenden
Greifen Sie auf Open-Source-Software mit End-to-End-Beispielen auf GitHub zu.

Einen Container herunterladen
Greifen Sie auf Linux-basierte Triton Inference Server-Container für x86 und Arm® auf NVIDIA NGC™ zu.

Erst testen, dann kaufen

Für Unternehmen, die Triton testen möchten, bevor sie NVIDIA AI Enterprise für die Produktion kaufen, gibt es zwei kostenlose Einstiegsoptionen:

Ohne Infrastruktur
Für diejenigen, die keine vorhandene Infrastruktur haben, bietet NVIDIA kostenlose Praxiskurse über NVIDIA LaunchPad an.

Mit Infrastruktur
Für diejenigen mit vorhandener Infrastruktur bietet NVIDIA eine kostenlose Evaluierungslizenz an, um NVIDIA AI Enterprise für 90 Tage zu testen.

Ressourcen

Die wichtigsten 5 Gründe, warum Triton die Inferenz vereinfacht

Der NVIDIA Triton Inference Server vereinfacht die Bereitstellung von KI-Modellen in der Produktion im großen Stil, sodass Teams trainierte KI-Modelle aus jedem Framework aus einem lokalen Speicher oder einer Cloud-Plattform auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen können. 

Bereitstellung der Stable Diffusion-Pipeline von HuggingFace mit Triton

In diesem Video wird die Bereitstellung der Stable Diffusion-Pipeline veranschaulicht, die über die HuggingFace-Diffuser-Bibliothek verfügbar ist. Wir verwenden Triton Inference Server, um die Pipeline bereitzustellen und auszuführen.

Erste Schritte mit NVIDIA Triton Inference Server

Triton Inference Server ist eine Open-Source-Inferenzlösung, die die Modellbereitstellung standardisiert und schnelle und skalierbare KI in der Produktion ermöglicht. Angesichts der vielen Funktionen stellt sich natürlich die Frage: Wo fange ich an? Sehen Sie sich das Video an und finden Sie es heraus.

Select Location
Middle East