Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
Inferencia
Implemente, ejecute y escale la IA para cualquier aplicación en cualquier plataforma.
Video | Informe técnico | Para desarrolladores
Ejecute la inferencia en modelos de aprendizaje automático o deep learning entrenados desde cualquier entorno en cualquier procesador (GPU, CPU u otro) con el servidor de inferencia NVIDIA Triton™. Como parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el servidor de inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo.
Obtenga instrucciones paso a paso sobre cómo ofrecer modelos lingüísticos de gran tamaño de forma eficiente con el servidor de inferencia Triton.
Implemente modelos de IA en cualquier entorno principal con el servidor de inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, Scikit-learn RandomForest, OpenVINO y C++ personalizado, entre otros.
Maximice el rendimiento y el uso con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El servidor de inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm, así como con AWS Inferentia.
Integre el servidor de inferencia Triton en soluciones DevOps y MLOps, como Kubernetes para escalar y Prometheus para supervisar. También se puede utilizar en las principales plataformas de IA y MLOps, tanto en la nube como en las instalaciones.
NVIDIA AI Enterprise, que incluye el servidor de inferencia NVIDIA Triton, es una plataforma de software de IA segura y preparada para la producción. Está diseñada para acelerar el tiempo de obtención de valor con asistencia, seguridad y estabilidad de la API.
Triton ofrece baja latencia y alto rendimiento para la inferencia de modelos lingüísticos de gran tamaño. Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para la inferencia en producción.
Los Conjuntos de modelos Triton te permiten ejecutar cargas de trabajo de IA con varios modelos, canalizaciones y pasos de preprocesamiento y posprocesamiento. Además, permite la ejecución de diferentes partes del conjunto en CPU o GPU y es compatible con varios entornos dentro del conjunto.
PyTriton permite a los desarrolladores de Python incluir Triton con una sola línea de código y utilizarla para ofrecer modelos, funciones de procesamiento sencillas o canalizaciones de inferencia completas para acelerar la creación de prototipos y las pruebas.
El Analizador de modelos reduce el tiempo necesario para buscar la configuración de implementación de modelos óptima, como el tamaño del lote, la precisión y las instancias de ejecución simultánea. Ayuda a seleccionar la configuración óptima para satisfacer los requisitos de latencia, rendimiento y memoria de la aplicación.
Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA en cualquier aplicación y plataforma.
Las personas que deseen acceder al código abierto y los contenedores de Triton para el desarrollo tienen dos opciones para empezar de forma gratuita:
Usar código abierto Acceda al software de código abierto en GitHub con ejemplos integrales.
Descargar un contenedor Acceda a los contenedores del servidor de inferencia Triton basados en Linux para x86 y Arm® en NVIDIA NGC™.
Las empresas que deseen probar Triton antes de comprar NVIDIA AI Enterprise para la producción disponen de dos opciones para empezar de forma gratuita:
Sin infraestructura Para aquellos que no disponen de infraestructura, NVIDIA ofrece laboratorios prácticos gratuitos a través de NVIDIA LaunchPad.
Con infraestructura Para aquellos que disponen de infraestructura, NVIDIA ofrece una licencia de evaluación gratuita para probar NVIDIA AI Enterprise durante 90 días.
El servidor de inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción, lo que permite a los equipos implementar modelos de IA entrenados desde cualquier entorno de trabajo del almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.
Este vídeo muestra la implementación de la canalización de Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Utilizamos el servidor de inferencia Triton para implementar y ejecutar la canalización.
El servidor de inferencia Triton es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Dado que tiene muchas funciones, es normal preguntarse por dónde empezar. Para descubrirlo, tendrá que ver el vídeo.
¿No está familiarizado con el servidor de inferencia Triton y quiere implementar su modelo rápidamente? Utilice esta guía de inicio rápido para comenzar su recorrido con Triton.
Los primeros pasos con Triton pueden originar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Triton y buscar guías y ejemplos que faciliten la migración.
En los laboratorios prácticos, experimentará una IA rápida y escalable con el servidor de inferencia NVIDIA Triton. Podrá desbloquear inmediatamente las ventajas de la infraestructura de computación acelerada de NVIDIA y escalar sus cargas de trabajo de IA.
Infórmese sobre las actualizaciones y los anuncios de inferencia más recientes del servidor de inferencia Triton.
Lea tutoriales técnicos sobre cómo dar los primeros pasos con la inferencia.
Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para la inferencia de IA generativa, LLM, sistemas de recomendación, visión computarizada y mucho más.
Descubra cómo ofrecer LLM de forma eficiente con el servidor de inferencia Triton mediante instrucciones paso a paso. Hablaremos sobre cómo implementar fácilmente un LLM en varios backends y comparar su rendimiento, además de cómo ajustar las configuraciones de implementación para obtener un rendimiento óptimo.
Descubra qué es la inferencia de IA, cómo se adapta a la estrategia de implementación de IA de su empresa, los retos clave de la implementación de casos de uso de IA de nivel empresarial, los motivos por los que se necesita una solución de inferencia de IA de pila completa para abordar dichos retos, los componentes principales de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.
Explore cómo la plataforma de inferencia de IA de NVIDIA se integra a la perfección con los principales proveedores de servicios en la nube, lo que simplifica la implementación y acelera el lanzamiento de casos de uso de IA con tecnología LLM.
Descubra cómo los servicios de visión computarizada y ciencia de datos de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con el servidor de inferencia NVIDIA Triton.
Descubra cómo ControlExpert ha recurrido a la IA de NVIDIA para desarrollar una solución de gestión de reclamaciones de extremo a extremo que permite a sus clientes recibir un servicio ininterrumpido.
Descubra cómo Wealthsimple ha utilizado la plataforma de inferencia de IA de NVIDIA para reducir con éxito la duración de la implementación de sus modelos, de varios meses a solo 15 minutos.
Explore la comunidad en línea del servidor de inferencia NVIDIA Triton, donde puede consultar preguntas sobre procedimiento, aprender las prácticas recomendadas, relacionarse con otros desarrolladores y notificar errores.
Conecte con millones de desarrolladores afines y acceda a cientos de contenedores, modelos y SDK acelerados por GPU, es decir, a todas las herramientas necesarias para crear aplicaciones con tecnología NVIDIA con éxito. Todo ello, a través del Programa de desarrolladores de NVIDIA.
NVIDIA Inception es un programa gratuito para nuevas empresas de vanguardia que ofrece acceso crítico a soporte de salida al mercado, experiencia técnica, formación y oportunidades de financiación.
Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA en cualquier aplicación y plataforma, o bien explore más recursos de desarrollo.
Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, estabilidad de la API y soporte de NVIDIA AI Enterprise.
Suscríbase para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.