Einfachere Modellbereitstellung

Nutzen Sie NVIDIA Triton Inference Server, um KI-Modelle mit mehreren Frameworks in großem Maßstab bereitzustellen.

Durchgängige Systemarchitektur

NVIDIA Triton Inference Server vereinfacht die Bereitstellung von KI-Modellen in großem Maßstab in der Produktion. Triton ist eine Open-Source-Software für Inferenz mit der Teams fertig trainierte KI-Modelle aus jedem Framework, lokalem Speicher, von der Google Cloud Platform oder von AWS S3 aus bereitstellen können – auf allen GPU- oder CPU-basierten Infrastrukturen, Clouds, Rechenzentren oder im Edge-Bereich. Um Triton zu verwenden, rufen Sie den Container aus dem NVIDIA NGC-Katalog ab, dem Hub für GPU-optimierte Software im Bereich Deep Learning und maschinelles Lernen, das die Bereitstellung für Entwicklungsworkflows beschleunigt.

Vorteile von Triton Inference Server

Multi-Framework-Unterstützung

Triton Inference Server unterstützt alle wichtigen Frameworks wie TensorFlow, NVIDIA® TensorRT, PyTorch, ONNX Runtime sowie benutzerdefinierte Backend-Frameworks. Somit haben KI-Forscher und Datenwissenschaftler die Freiheit, das richtige Framework für ihr Projekt zu wählen.

Hochleistungs-Inferenz

Triton führt mehrere Modelle gleichzeitig auf GPUs aus, um die Auslastung zu maximieren, unterstützt CPU-basierte Inferenz und bietet erweiterte Funktionen wie Modellpakete und Streaming-Inferenz. All das hilft Entwicklern, Modelle schnell produktionsreif zu machen.

Entwickelt für DevOps und MLOps

Triton ist als Docker-Container verfügbar und wird in Kubernetes für die Orchestrierung und Skalierung integriert, ist Teil von Kubeflow und exportiert zur Überwachung Prometheus-Metriken. Dies hilft IT und DevOps, die Modellbereitstellung in der Produktion zu optimieren.

Die Inferenzpipeline

Einfachere Modellbereitstellung

NVIDIA Triton Inference Server vereinfacht die Bereitstellung von KI-gestützten Deep Learning-Modellen in großem Maßstab für die Produktion, sowohl auf GPU als auch auf CPU. Dank Unterstützung aller wichtigen Frameworks, der Ausführung mehrerer Modelle gleichzeitig, was Durchsatz und Auslastung erhöht, und der Kompatibilität mit DevOps-Tools lässt sich die Produktion einfach optimieren.

Die Kombination dieser Funktionen hilft Datenwissenschaftlern, Entwicklern und IT-Experten, gemeinsam die Entwicklung und Bereitstellung von KI in der Produktion zu beschleunigen.

Entwickelt für Skalierbarkeit

NVIDIA Triton Inference Server ist dank Inferenz auf Basis von Microservices für Rechenzentren und die Cloud skalierbar. Er kann als Container-Microservice bereitgestellt werden, um Modelle für Vor- oder Nachverarbeitung sowie Deep Learning auf GPU und CPU zu betreiben. Alle Triton-Instanzen können unabhängig voneinander in einer Kubernetes-ähnlichen Umgebung skaliert werden, um optimale Leistung zu erzielen. Um Triton in Kubernetes bereitzustellen genügt ein einziger Helm-Befehl in NGC.

Triton kann zur Bereitstellung von Modellen in der Cloud, in lokalen Rechenzentren oder im Edge-Bereich verwendet werden.

Die Inferenzpipeline

Erste Schritte mit NVIDIA Triton Inference Server auf NGC.