Inference
Implemente, ejecute y escale IA para cualquier aplicación en cualquier plataforma.
Video | Ficha Técnica | Para Desarrolladores
Ejecute inferencias en modelos de machine learning entrenados o de deep learning desde cualquier framework en cualquier procesador (GPU, CPU u otro) con el Servidor de Inferencia NVIDIA Triton™. Parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el Servidor de Inferencia Triton es un software de código abierto que estandariza la implementación y ejecución del modelo de IA en cada carga de trabajo.
Obtenga instrucciones paso a paso sobre cómo servir grandes modelos de lenguaje (LLM) de manera eficiente utilizando el Servidor de Inferencia Triton.
Implemente modelos de IA en cualquier framework importante con el Servidor de Inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado y más.
Maximice el rendimiento y la utilización con procesamiento por lotes dinámico, ejecución simultánea, configuración óptima y transmisión de audio y video. El Servidor de Inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm, y AWS Inferentia.
Integre el Servidor de Inferencia Triton en soluciones DevOps y MLOps como Kubernetes para escalamiento y Prometheus para monitoreo. También se puede utilizar en todas las principales plataformas de IA y MLOps locales y en la nube.
NVIDIA AI Enterprise, incluido el Servidor de Inferencia NVIDIA Triton, es una plataforma de software de IA segura y lista para producción diseñada para acelerar la generación de valor con soporte, seguridad y estabilidad de API.
Triton ofrece baja latencia y alto rendimiento para la inferencia de grandes modelos de lenguaje (LLM). Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para inferencia en producción.
Los Conjutos de Modelos de Triton le permiten ejecutar cargas de trabajo de IA con múltiples modelos, pipelines y pasos de pre y posprocesamiento. Permite la ejecución de diferentes partes del conjunto en CPU o GPU y admite múltiples frameworks dentro del conjunto.
PyTriton permite a los desarrolladores de Python crear Triton con una sola línea de código y usarlo para servir modelos, funciones de procesamiento simples o procesos de inferencia completos para acelerar la creación de prototipos y las pruebas.
El Analizador de Modelos reduce el tiempo necesario para encontrar la configuración óptima de implementación del modelo, como el tamaño del lote, la precisión y las instancias de ejecución simultáneas. Ayuda a seleccionar la configuración óptima para cumplir con los requisitos de latencia, rendimiento y memoria de las aplicaciones.
Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.
Para las personas que buscan acceder al código fuente abierto y a los contenedores de desarrollo de Triton, existen dos opciones para comenzar de forma gratuita:
Utilice Código de Fuente Abierta Acceda al software de código abierto en GitHub con ejemplos de un extremo a otro.
Descarga un Contenedor Acceda a contenedores del Servidor de Inferencia Triton basados en Linux para x86 y Arm® en NVIDIA NGC™.
Para las empresas que quieran probar Triton antes de comprar NVIDIA AI Enterprise para producción, existen dos opciones para comenzar de forma gratuita:
Sin Infraestructura Para aquellos que no cuentan con una infraestructura existente, NVIDIA ofrece laboratorios prácticos gratuitos a través de NVIDIA LaunchPad.
Con Infraestructura Para aquellos con infraestructura existente, NVIDIA ofrece una licencia de evaluación gratuita para probar NVIDIA AI Enterprise durante 90 días.
El Servidor de Inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción, lo que permite a los equipos implementar modelos de IA entrenados desde cualquier framework desde el almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.
Este video muestra la implementación del pipeline Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Usamos el Servidor de Inferencia Triton para implementar y ejecutar el pipeline.
El Servidor de Inferencia Triton es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Debido a sus muchas características, una pregunta natural es: ¿por dónde empiezo? Mire para descubrirlo.
¿Es nuevo en el Servidor de Inferencia Triton y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para comenzar su viaje con Triton.
Comenzar a utilizar Triton puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Triton y encuentre guías y ejemplos que puedan ayudar a facilitar la migración.
En laboratorios prácticos, experimente una IA rápida y escalable utilizando el Servidor de Inferencia NVIDIA Triton. Podrás desbloquear inmediatamente los beneficios de la infraestructura de computación acelerada de NVIDIA y escalar tus cargas de trabajo de IA.
Lea acerca de las últimas actualizaciones y anuncios de inferencia para el Servidor de Inferencia Triton.
Lea tutoriales técnicos sobre cómo comenzar con la inferencia.
Obtenga sugerencias y mejores prácticas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por computadora y más.
Aprenda cómo brindar servicios a los LLM de manera eficiente utilizando el Servidor de Inferencia Triton con instrucciones paso a paso. Cubriremos cómo implementar fácilmente un LLM en múltiples backends y comparar su rendimiento, así como también cómo ajustar las configuraciones de implementación para un rendimiento óptimo.
Conozca qué es la inferencia de IA, cómo encaja en la estrategia de implementación de IA de su empresa, desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, los componentes principales de una pila completa plataforma y cómo implementar su primera solución de inferencia de IA.
Explore cómo la plataforma de inferencia de IA de NVIDIA se integra perfectamente con los principales proveedores de servicios en la nube, simplificando la implementación y acelerando el lanzamiento de casos de uso de IA impulsados por LLM.
Descubra cómo los servicios de ciencia de datos y visión por computadora de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con el Servidor de Inferencia NVIDIA Triton.
Descubra cómo ControlExpert recurrió a la IA de NVIDIA para desarrollar una solución de gestión de reclamaciones de extremo a extremo que permita a sus clientes recibir servicio las 24 hor
Descubra cómo Wealthsimple utilizó la plataforma de inferencia de IA de NVIDIA para reducir con éxito la duración de la implementación de su modelo de varios meses a solo 15 minutos.
Explore la comunidad en línea del Servidor de Inferencia NVIDIA Triton, donde puede explorar preguntas prácticas, aprender las mejores prácticas, interactuar con otros desarrolladores e informar errores.
Conéctese con millones de desarrolladores con ideas afines y acceda a cientos de contenedores, modelos y SDK acelerados por GPU (todas las herramientas necesarias para crear aplicaciones con éxito con tecnología NVIDIA) a través del Programa para Desarrolladores de NVIDIA.
NVIDIA Inception es un programa gratuito para startups de vanguardia que ofrece acceso fundamental a soporte de comercialización, experiencia técnica, capacitación y oportunidades de financiación.
Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma, o explore más recursos de desarrollo.
Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase de pruebas a la producción con la seguridad, la estabilidad de API y el soporte de NVIDIA AI Enterprise.
Regístrate para recibir las últimas noticias, actualizaciones y más de NVIDIA.