Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren, und ist zur Orchestrierung sowie für Metriken und automatische Skalierung mit Kybernetes integriert.