Inferenz
KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren.
Video | Whitepaper | Für Entwickler
Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jede Workload standardisiert.
Schritt-für-Schritt-Anleitungen zur effizienten Bereitstellung großer Sprachmodelle (LLMs) mit Triton Inference Server.
Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.
Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm-CPUs sowie AWS Inferentia.
Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps- Plattformen verwendet werden.
NVIDIA AI Enterprise, einschließlich NVIDIA Triton Inference Server, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen.
Triton bietet eine niedrige Latenz und einen hohen Durchsatz für die Inferenz mit großen Sprachmodellen (Large Language Models, LLM). Es unterstützt TensorRT-LLMs, eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von LLMs für die Inferenz in der Produktion.
Triton Modell-Ensembles ermöglicht Ihnen die Ausführung von KI-Workloads mit mehreren Modellen, Pipelines sowie Vor- und Nachverarbeitungsschritten. Es können verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausgeführt werden und unterstützt somit mehrere Frameworks innerhalb des Ensembles.
PyTriton ermöglicht Python-Entwicklern, Triton mit einer einzigen Codezeile aufzurufen und es zur Bereitstellung von Modellen, einfachen Verarbeitungsfunktionen oder ganzen Inferenzpipelines zu verwenden, um Prototyping und Tests zu beschleunigen.
Der Model Analyzer reduziert die Zeit, die benötigt wird, um die optimale Konfiguration für die Modellbereitstellung zu finden, z. B. für Batchgröße, Präzision und Instanzen für simultane Ausführung. Er hilft bei der Auswahl der optimalen Konfiguration, um Anwendungslatenz, Durchsatz und Speicheranforderungen zu erfüllen.
Nutzen Sie die richtigen Tools, um KI für verschiedenste Anwendungen auf sämtlichen Plattformen bereitzustellen, auszuführen und zu skalieren.
Für diejenigen, die für die Entwicklung auf den Open-Source-Code und die Container von Triton zugreifen möchten, gibt es zwei kostenlose Einstiegsmöglichkeiten:
Open-Source-Code verwenden Greifen Sie auf Open-Source-Software mit End-to-End-Beispielen auf GitHub zu.
Einen Container herunterladen Greifen Sie auf Linux-basierte Triton Inference Server-Container für x86 und Arm® auf NVIDIA NGC™ zu.
Für Unternehmen, die Triton testen möchten, bevor sie NVIDIA AI Enterprise für die Produktion kaufen, gibt es zwei kostenlose Einstiegsoptionen:
Ohne Infrastruktur Für diejenigen, die keine vorhandene Infrastruktur haben, bietet NVIDIA kostenlose Praxiskurse über NVIDIA LaunchPad an.
Mit Infrastruktur Für diejenigen mit vorhandener Infrastruktur bietet NVIDIA eine kostenlose Evaluierungslizenz an, um NVIDIA AI Enterprise für 90 Tage zu testen.
Der NVIDIA Triton Inference Server vereinfacht die Bereitstellung von KI-Modellen in der Produktion im großen Stil, sodass Teams trainierte KI-Modelle aus jedem Framework aus einem lokalen Speicher oder einer Cloud-Plattform auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen können.
In diesem Video wird die Bereitstellung der Stable Diffusion-Pipeline veranschaulicht, die über die HuggingFace-Diffuser-Bibliothek verfügbar ist. Wir verwenden Triton Inference Server, um die Pipeline bereitzustellen und auszuführen.
Triton Inference Server ist eine Open-Source-Inferenzlösung, die die Modellbereitstellung standardisiert und schnelle und skalierbare KI in der Produktion ermöglicht. Angesichts der vielen Funktionen stellt sich natürlich die Frage: Wo fange ich an? Sehen Sie sich das Video an und finden Sie es heraus.
Sie nutzen Triton Inference Server zum ersten Mal und möchten Ihr Modell schnell bereitstellen? Beginnen Sie Ihre Triton-Reise mit dieser Kurzanleitung.
Bei den ersten Schritten mit Triton können viele Fragen auftauchen. Erkunden Sie dieses Repository, um sich mit den Funktionen von Triton vertraut zu machen und Leitfäden und Beispiele zu sehen, die Ihnen die Migration erleichtern können.
Sie können in Praxisübungen schnelle und skalierbare KI mit NVIDIA Triton Inference Server erleben. Sie können sofort die Vorteile der beschleunigten Computing-Infrastruktur von NVIDIA nutzen und Ihre KI-Workloads skalieren.
Lesen Sie mehr über die neuesten Updates und Ankündigungen zu Triton Inference Server.
Lesen Sie technische Anleitungen zu den ersten Schritten mit Inferenzen.
Hier erhalten Sie Tipps und Best Practices für die Bereitstellung, Ausführung und Skalierung von KI-Modellen für Inferenz für generative KI, LLMs, Empfehlungssysteme, Computer Vision und mehr.
Erhalten Sie Schritt-für-Schritt-Anleitungen, wie Sie LLMs mithilfe von Triton Inference Server effizient bereitstellen. Wir behandeln, wie Sie ein LLM ganz einfach auf mehreren Backends bereitstellen und deren Performance vergleichen. Außerdem erfahren Sie, wie Sie Bereitstellungskonfigurationen für eine optimale Performance verbessern.
Erfahren Sie, was KI-Inferenz ist, wie sie in die KI-Bereitstellungsstrategie Ihres Unternehmens passt, die wichtigsten Herausforderungen bei der Bereitstellung von KI-Anwendungsfällen auf Unternehmensniveau, warum eine Full-Stack-KI-Inferenzlösung erforderlich ist, um diese Herausforderungen zu bewältigen, die Hauptkomponenten eines Full-Stacks und wie Sie Ihre erste KI-Inferenzlösung bereitstellen.
Erfahren Sie, wie sich die NVIDIA AI-Inferenzplattform nahtlos in führende Cloud-Service-Anbieter integrieren lässt, wodurch die Bereitstellung vereinfacht und die Einführung von LLM-gestützten KI-Anwendungsfällen beschleunigt wird.
Erfahren Sie, wie die Computer Vision- und Data Science-Services von Oracle Cloud Infrastructure KI-Prognosen mit NVIDIA Triton Inference Server beschleunigen.
Erfahren Sie, wieso ControlExpert auf NVIDIA AI setzt, um eine End-to-End-Lösung für das Schadensmanagement zu entwickeln, mit der Kunden einen Rund-um-die-Uhr-Service erhalten.
Erfahren Sie, wie Wealthsimple mit der KI-Inferenzplattform von NVIDIA die Dauer der Modellbereitstellung von mehreren Monaten auf nur 15 Minuten reduziert hat.
Entdecken Sie die Online-Community für NVIDIA Triton Inference Server. Hier finden Sie Antworten auf Fragen, lernen Best Practices kennen, können sich mit anderen Entwicklern austauschen und Fehler melden.
Verbinden Sie sich mit Millionen gleichgesinnter Entwickler und erhalten Sie über das NVIDIA-Entwicklerprogramm Zugriff auf Hunderte von GPU-beschleunigten Containern, Modellen und SDKs – also auf alles, was Sie zur erfolgreichen Entwicklung von Apps mit NVIDIA-Technologie benötigen.
NVIDIA Inception ist ein kostenloses Programm für innovative Start-ups. Es bietet Zugang zu Unterstützung bei der Markteinführung, technischem Know-how, Schulungen und Finanzierungsmöglichkeiten.
Finden Sie die richtige Lizenz, um KI für verschiedenste Anwendungen auf sämtlichen Plattformen bereitzustellen, auszuführen und zu skalieren, oder entdecken Sie weitere Entwicklungsressourcen.
Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel von der Pilotphase zur Produktionsumgebung mit der Sicherheit, der API-Stabilität und dem Support von NVIDIA AI Enterprise.
Ich möchte aktuelle Neuigkeiten, Updates und weitere Informationen von NVIDIA erhalten.