Inference

Servidor de Inferencia NVIDIA Triton

Implemente, ejecute y escale IA para cualquier aplicación en cualquier plataforma.

Inferencia para Cada Carga de Trabajo de IA

Ejecute inferencias en modelos de machine learning entrenados o de deep learning desde cualquier framework en cualquier procesador (GPU, CPU u otro) con el Servidor de Inferencia NVIDIA Triton™. Parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el Servidor de Inferencia Triton es un software de código abierto que estandariza la implementación y ejecución del modelo de IA en cada carga de trabajo.

Implementación, Optimización y Evaluación Comparativa de LLM

Obtenga instrucciones paso a paso sobre cómo servir grandes modelos de lenguaje (LLM) de manera eficiente utilizando el Servidor de Inferencia Triton.

Los Beneficios del Servidor de Inferencia Triton

Soporta Todos los Frameworks de Entrenamiento e Inferencia

Implemente modelos de IA en cualquier framework importante con el Servidor de Inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado y más.

Inferencia de Alto Rendimiento en Cualquier Plataforma

Maximice el rendimiento y la utilización con procesamiento por lotes dinámico, ejecución simultánea, configuración óptima y transmisión de audio y video. El Servidor de Inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm, y AWS Inferentia.

Código Abierto y Diseñado para DevOps y MLOps

Integre el Servidor de Inferencia Triton en soluciones DevOps y MLOps como Kubernetes para escalamiento y Prometheus para monitoreo. También se puede utilizar en todas las principales plataformas de IA y MLOps locales y en la nube.

Seguridad, Capacidad de Gestión y Estabilidad de API de Nivel Empresarial

NVIDIA AI Enterprise, incluido el Servidor de Inferencia NVIDIA Triton, es una plataforma de software de IA segura y lista para producción diseñada para acelerar la generación de valor con soporte, seguridad y estabilidad de API.

Explore las Características y Herramientas del Servidor de Inferencia NVIDIA Triton

Inferencia de Grandes Modelos de Lenguaje

Triton ofrece baja latencia y alto rendimiento para la inferencia de grandes modelos de lenguaje (LLM). Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para inferencia en producción.

Conjuntos de Modelos

Los Conjutos de Modelos de Triton le permiten ejecutar cargas de trabajo de IA con múltiples modelos, pipelines y pasos de pre y posprocesamiento. Permite la ejecución de diferentes partes del conjunto en CPU o GPU y admite múltiples frameworks dentro del conjunto.

NVIDIA PyTriton

PyTriton permite a los desarrolladores de Python crear Triton con una sola línea de código y usarlo para servir modelos, funciones de procesamiento simples o procesos de inferencia completos para acelerar la creación de prototipos y las pruebas.

Analizador de Modelos NVIDIA Triton

El Analizador de Modelos reduce el tiempo necesario para encontrar la configuración óptima de implementación del modelo, como el tamaño del lote, la precisión y las instancias de ejecución simultáneas. Ayuda a seleccionar la configuración óptima para cumplir con los requisitos de latencia, rendimiento y memoria de las aplicaciones.

Principales Adoptantes en Todas las Industrias

Empieze con NVIDIA Tritón

Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.

Comience a Desarrollar con Código o Contenedores

Para las personas que buscan acceder al código fuente abierto y a los contenedores de desarrollo de Triton, existen dos opciones para comenzar de forma gratuita:

Utilice Código de Fuente Abierta
Acceda al software de código abierto en GitHub con ejemplos de un extremo a otro.

Descarga un Contenedor
Acceda a contenedores del Servidor de Inferencia Triton basados ​​en Linux para x86 y Arm® en NVIDIA NGC™.

Pruebe Antes de Comprar

Para las empresas que quieran probar Triton antes de comprar NVIDIA AI Enterprise para producción, existen dos opciones para comenzar de forma gratuita:

Sin Infraestructura
Para aquellos que no cuentan con una infraestructura existente, NVIDIA ofrece laboratorios prácticos gratuitos a través de NVIDIA LaunchPad.

Con Infraestructura
Para aquellos con infraestructura existente, NVIDIA ofrece una licencia de evaluación gratuita para probar NVIDIA AI Enterprise durante 90 días.

Recursos

Cinco Razones Principales por las que Triton Está Simplificando la Inferencia

El Servidor de Inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción, lo que permite a los equipos implementar modelos de IA entrenados desde cualquier framework desde el almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Implemente el Pipeline de Stable Diffusion con Triton

Este video muestra la implementación del pipeline Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Usamos el Servidor de Inferencia Triton para implementar y ejecutar el pipeline.

Primeros Pasos con el Servidor de Inferencia NVIDIA Triton

El Servidor de Inferencia Triton es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Debido a sus muchas características, una pregunta natural es: ¿por dónde empiezo? Mire para descubrirlo.

Guía de Inicio Rápido

¿Es nuevo en el Servidor de Inferencia Triton y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para comenzar su viaje con Triton.

Tutoriales

Comenzar a utilizar Triton puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Triton y encuentre guías y ejemplos que puedan ayudar a facilitar la migración.

NVIDIA LaunchPad

En laboratorios prácticos, experimente una IA rápida y escalable utilizando el Servidor de Inferencia NVIDIA Triton. Podrás desbloquear inmediatamente los beneficios de la infraestructura de computación acelerada de NVIDIA y escalar tus cargas de trabajo de IA.

Obtenga las Últimas Noticias

Lea acerca de las últimas actualizaciones y anuncios de inferencia para el Servidor de Inferencia Triton.

Explora Blogs Técnicos

Lea tutoriales técnicos sobre cómo comenzar con la inferencia.

Sumérgete Profundamente

Obtenga sugerencias y mejores prácticas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por computadora y más.

Implementación, Optimización y Evaluación Comparativa de LLM

Aprenda cómo brindar servicios a los LLM de manera eficiente utilizando el Servidor de Inferencia Triton con instrucciones paso a paso. Cubriremos cómo implementar fácilmente un LLM en múltiples backends y comparar su rendimiento, así como también cómo ajustar las configuraciones de implementación para un rendimiento óptimo.

Traslade los Casos de Uso de IA Empresarial del Desarrollo a la Producción

Conozca qué es la inferencia de IA, cómo encaja en la estrategia de implementación de IA de su empresa, desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, los componentes principales de una pila completa plataforma y cómo implementar su primera solución de inferencia de IA.

Aproveche el Poder de las Soluciones de Inferencia de IA Listas para la Nube

Explore cómo la plataforma de inferencia de IA de NVIDIA se integra perfectamente con los principales proveedores de servicios en la nube, simplificando la implementación y acelerando el lanzamiento de casos de uso de IA impulsados ​​por LLM.

Oracle Cloud

NVIDIA Triton Acelera la Inferencia en Oracle Cloud

Descubra cómo los servicios de ciencia de datos y visión por computadora de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con el Servidor de Inferencia NVIDIA Triton.

ControlExpert

Revolucionando la Gestión de Reclamaciones de Automóviles

Descubra cómo ControlExpert recurrió a la IA de NVIDIA para desarrollar una solución de gestión de reclamaciones de extremo a extremo que permita a sus clientes recibir servicio las 24 hor

Wealthsimple

Acelerando la Entrega e Inferencia del Modelo de Machine Learning

Descubra cómo Wealthsimple utilizó la plataforma de inferencia de IA de NVIDIA para reducir con éxito la duración de la implementación de su modelo de varios meses a solo 15 minutos.

Foro en Línea de Triton

Explore la comunidad en línea del Servidor de Inferencia NVIDIA Triton, donde puede explorar preguntas prácticas, aprender las mejores prácticas, interactuar con otros desarrolladores e informar errores.

Programa para Desarrolladores de NVIDIA

Conéctese con millones de desarrolladores con ideas afines y acceda a cientos de contenedores, modelos y SDK acelerados por GPU (todas las herramientas necesarias para crear aplicaciones con éxito con tecnología NVIDIA) a través del Programa para Desarrolladores de NVIDIA.

Acelere Su Startup

NVIDIA Inception es un programa gratuito para startups de vanguardia que ofrece acceso fundamental a soporte de comercialización, experiencia técnica, capacitación y oportunidades de financiación.