Inference
Implemente, ejecute y escale IA para cualquier aplicación en cualquier plataforma.
Ejecute inferencias en modelos de machine learning o deep learning entrenados desde cualquier framework en cualquier procesador (GPU, CPU u otro) con el Servidor de Inferencia NVIDIA Triton™. El Servidor de Inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo. Forma parte de la plataforma de IA de NVIDIA y está disponible con NVIDIA AI Enterprise.
Triton ofrece baja latencia y alto rendimiento para la inferencia de grandes modelos de lenguaje (LLM). Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para la inferencia en producción.
Los Conjuntos de Modelos Triton le permite ejecutar cargas de trabajo de IA con varios modelos, pipelines y pasos de preprocesamiento y posprocesamiento. Permite la ejecución de diferentes partes del conjunto en la CPU o la GPU, y admite múltiples frameworks dentro del conjunto.
PyTriton permite a los desarrolladores de Python poner en marcha Triton con una sola línea de código y usarlo para servir modelos, funciones de procesamiento simples o pipelines de inferencia completas para acelerar la creación de prototipos y las pruebas.
El Analizador de Modelo reduce el tiempo necesario para encontrar la configuración óptima de implementación del modelo, como el tamaño del lote, la precisión y las instancias de ejecución simultáneas. Ayuda a seleccionar la configuración óptima para cumplir con los requisitos de latencia, rendimiento y memoria de las aplicaciones.
Implemente modelos de IA en cualquier framework principal con Servidor de Inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado y más.
Maximice el rendimiento y la utilización con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El Servidor de Inferencia Triton es compatible con todas las GPU de NVIDIA, CPU x86 y Arm, y AWS Inferentia.
NVIDIA AI Enterprise, incluido NVIDIA Servidor de Inferencia Triton, es una plataforma de software de IA segura y lista para la producción diseñada para acelerar el tiempo de generación de valor con soporte, seguridad y estabilidad de API.
Utilice las herramientas y tecnologías adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.
Descubra cómo los líderes del sector están impulsando la innovación con Servidor de Inferencia Triton.
El Servidor de Inferencia Triton permite a las organizaciones consolidar sus servidores de inferencia específicos del framework en una única plataforma unificada. En lugar de implementar y administrar servidores separados para cada framework de IA, actúa como un servidor único y unificado, lo que reduce los costos de servicio de inferencia. El Servidor de Inferencia Triton es compatible con todos los principales frameworks de IA, incluidos PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX y OpenVINO.
Utilice las herramientas y tecnologías adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.
Explora todo lo que necesitas para empezar a desarrollar con NVIDIA Triton, incluida la documentación más reciente, tutoriales, blogs técnicos y mucho más.
Habla con un especialista en productos de NVIDIA sobre cómo pasar de piloto a producción con la seguridad, la estabilidad de la API y el soporte de NVIDIA AI Enterprise.