Simplificar la implementación del modelo

Aprovecha el servidor de inferencia NVIDIA Triton para implementar fácilmente modelos de IA multi-plataforma a escala.

Una arquitectura del sistema de un extremo a otro

El servidor de inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción. Triton es un software de código abierto que sirve inferencias y que permite a los equipos implementar modelos de IA entrenados en cualquier plataforma, desde el almacenamiento local o desde Google Cloud Platform o AWS S3 en cualquier nube, centro de datos, perímetro o infraestructura basada en CPU o GPU. Para empezar a usar Triton, extrae el contenedor del catálogo de NVIDIA NGC, el centro de software optimizado para GPU para aprendizaje profundo y aprendizaje automático que acelera la implementación en flujos de trabajo de desarrollo.

Beneficios del servidor de inferencia Triton

Soporte multi-plataforma

El servidor de inferencia Triton es compatible con todas las plataformas principales como TensorFlow, NVIDIA® TensorRT, PyTorch, ONNX Runtime, así como las plataformas backend personalizadas. Proporciona a los investigadores de IA y a los científicos de datos la libertad de elegir la plataforma adecuada para su proyecto.

Inferencia de alto rendimiento

Ejecuta modelos simultáneamente en GPU para maximizar la utilización, admite inferencias basadas en CPU y ofrece características avanzadas como el conjunto de modelos y la inferencia de streaming. Ayuda a los desarrolladores a llevar modelos rápidamente a la producción.

Diseñado para DevOps y MLOps

Disponible como contenedor de Docker, se integra con Kubernetes para orquestación y escalado, forma parte de Kubeflow y exporta métricas de Prometheus para su supervisión. Ayuda a TI y DevOps a optimizar la implementación de modelos en producción.

La canalización de inferencia

Implementación simplificada del modelo

El servidor de inferencia NVIDIA Triton simplifica la implementación de modelos de aprendizaje profundo a escala en producción, ya sea en GPU o CPU. Admite todas las plataformas principales, ejecuta varios modelos simultáneamente para aumentar el rendimiento y la utilización, y se integra con las herramientas de DevOps para una producción optimizada que es fácil de configurar.

Estas capacidades se combinan para reunir a científicos de datos, desarrolladores y operadores de TI para acelerar el desarrollo y la implementación de IA en producción.

Diseñado para proporcionar escalabilidad

El servidor de inferencia NVIDIA Triton proporciona escalabilidad en la nube y el centro de datos a través de la inferencia basada en microservicios. Se puede implementar como un microservicio de contenedor para servir modelos de pre/posprocesamiento y aprendizaje profundo en GPU y CPU. Cada instancia de Triton se puede escalar de forma independiente en un entorno similar a Kubernetes para obtener un rendimiento óptimo. Un solo comando Helm de NGC implementa Triton en Kubernetes.

Triton se puede usar para implementar modelos en la nube, en centros de datos locales o en el perímetro.

La canalización de inferencia

Empieza a usar el servidor de inferencia NVIDIA Triton en NGC.