O NVIDIA Triton Inference Server, anteriormente conhecido como TensorRT Inference Server, é um software de código aberto que simplifica a implantação de modelos de deep learning na produção. O Triton Inference Server permite que as equipes implantem modelos treinados de AI em qualquer estrutura (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet ou personalizada) a partir do armazenamento local, do Google Cloud Platform ou do AWS S3 em qualquer infraestrutura baseada em GPU ou CPU. Ele executa vários modelos simultaneamente em uma única GPU para maximizar a utilização e se integra ao Kubernetes para orquestração, métricas e dimensionamento automático.