Inferencia de IA

NVIDIA Dynamo

Escale y sirva IA generativa con rapidez.

Empezar

Leer la nota de prensa | Leer el blog técnico

Descripción
Características
Ventajas
Cómo empezar
Casos de uso
Testimonios de clientes
Recursos
Próximos pasos

Descripción

Descripción
Características
Ventajas
Cómo empezar
Casos de uso
Testimonios de clientes
Recursos
Próximos pasos

Empezar

Descripción

Inferencia distribuida de baja latencia
para IA generativa

NVIDIA Dynamo es un marco de inferencia modular de código abierto para servir modelos de IA generativa en entornos distribuidos. Permite un escalado perfecto de cargas de trabajo de inferencia en grandes flotas de GPU con programación dinámica de recursos, enrutamiento inteligente de solicitudes, gestión de memoria optimizada y transferencia de datos acelerada.

Al servir el modelo de razonamiento de código abierto DeepSeek-R1 671B en NVIDIA GB200 NVL72, NVIDIA Dynamo aumentó el número de solicitudes servidas hasta en 30 veces, lo que la convierte en la solución ideal para fábricas de IA que buscan ejecutarse al menor coste posible para maximizar la generación de ingresos de tokens.

NVIDIA Dynamo es compatible con todos los principales backends de inferencia de IA y cuenta con optimizaciones específicas de modelos lingüísticos de gran tamaño (LLM), como el servicio desagregado, la aceleración y el escalado de modelos de razonamiento de IA al coste más bajo y con la mayor eficiencia. Recibirá soporte como parte de NVIDIA AI Enterprise en una futura versión.

¿Qué es la inferencia distribuida?

La inferencia distribuida es el proceso de ejecución de inferencia de modelos de IA en varios dispositivos o nodos de computación para maximizar el rendimiento al paralelizar las computaciones.

Este enfoque permite un escalado eficiente para aplicaciones de IA a gran escala, como la IA generativa, al distribuir cargas de trabajo en GPU o infraestructura de la nube. La inferencia distribuida mejora el rendimiento general y la utilización de recursos al permitir a los usuarios optimizar la latencia y el rendimiento para los requisitos únicos de cada carga de trabajo.

Características

Explore las características de NVIDIA Dynamo

Servicio desagregado

Separa las fases de contexto (prerellenado) y de generación (descodificación) de los LLM en distintas GPU, lo que permite el paralelismo de modelos personalizado y la asignación de GPU independientes para aumentar las solicitudes servidas por GPU.

Planificador de GPU

Supervisa la capacidad de la GPU en entornos de inferencia distribuida y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación para resolver cuellos de botella y optimizar el rendimiento.

Enrutador inteligente

Enruta el tráfico de inferencia de forma eficiente y minimiza el costoso recálculo de solicitudes repetidas o solapadas para preservar los recursos de computación y garantizar una distribución de cargas equilibrada en grandes flotas de GPU.

NIXL Biblioteca de comunicación de baja latencia

Acelera el movimiento de datos en entornos de inferencia distribuida al tiempo que simplifica las complejidades de transferencia en diverso hardware, incluidas GPU, CPU, redes y almacenamiento.

Ventajas

Las ventajas de NVIDIA Dynamo

Escale a la perfección desde una GPU a miles de GPU

Agilice y automatice la configuración de clústeres de GPU con herramientas prediseñadas y fáciles de implementar y permita el autoescalado dinámico con métricas específicas de LLM en tiempo real, evitando el sobreaprovisionamiento o el aprovisionamiento insuficiente de recursos de GPU.

Aumente la capacidad de servicio de inferencia al tiempo que reduce los costes

Aproveche la inferencia de LLM avanzada que sirve optimizaciones, como el servicio desagregado, para aumentar el número de solicitudes de inferencia servidas sin poner en peligro la experiencia del usuario.

Prepare su infraestructura de IA para el futuro y evite costosas migraciones

El diseño abierto y modular le permite seleccionar fácilmente los componentes que sirven inferencia y que se adaptan a sus necesidades únicas, garantizándole la compatibilidad con su pila de IA existente y evitando costosos proyectos de migración.

Acelere el tiempo para implementar nuevos modelos de IA en producción

El soporte de NVIDIA Dynamo para todos los principales marcos, incluidos TensorRT-LLM, vLLM, SGLang, PyTorch y muchos más, garantiza su capacidad para implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.

Acelere la inferencia distribuida

NVIDIA Dynamo es totalmente de código abierto, lo que le ofrece transparencia y flexibilidad completas. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo a la perfección en su pila existente.

¡Échele un vistazo en GitHub y únase a la comunidad!

Empezar

Desarrollo

Para personas que buscan obtener acceso al código de código abierto del servidor de inferencia Triton para el desarrollo.

Acceder al código

Desarrollo

Para personas que buscan acceder a contenedores del servidor de inferencia Triton gratuitos para el desarrollo.

Obtener contenedor

Experiencia

Acceda a la infraestructura alojada por NVIDIA y a laboratorios prácticos guiados que incluyen instrucciones paso a paso y ejemplos, disponibles de forma gratuita en NVIDIA LaunchPad.

Acceder a los laboratorios prácticos

Implemente

Consiga una licencia gratuita para probar NVIDIA AI Enterprise en producción durante 90 días en su actual infraestructura.

Solicite una licencia de 90 días

Casos de uso

Implementación de IA con NVIDIA Dynamo

Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.

Servicio de modelo de razonamiento
Inferencia distribuida
Agentes de IA escalables
Generación de código

Servir modelos de razonamiento

Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza estos modelos con características como el servicio desagregado. Este enfoque separa las fases de computación de prerellenado y descodificación en distintas GPU, lo que permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de recursos, más consultas servidas por GPU y menores costes de inferencia.

Servicio de modelo de razonamiento de IA

Inferencia distribuida

A medida que los modelos de IA crecen en demasía para poder alojarse en un solo nodo, servirlos de forma eficiente se convierte en un desafío. La inferencia distribuida requiere la división de modelos en varios nodos, lo que añade complejidad en la orquestación, el escalado y la comunicación. Garantizar que estos nodos funcionen como una unidad cohesiva, especialmente bajo cargas de trabajo dinámicas, exige una gestión cuidadosa. NVIDIA Dynamo simplifica esto al proporcionar capacidades preintegradas en Kubernetes, manejando a la perfección la programación, el escalado y el servicio para que pueda centrarse en la implementación de IA, no en la gestión de infraestructura.

Agentes de IA escalables

Los agentes de IA se basan en varios modelos (LLM, sistemas de recuperación y herramientas especializadas) que trabajan sincronizados en tiempo real. El escalado de estos agentes es un desafío complejo que requiere una programación inteligente de GPU, una gestión de caché de KV eficiente y una comunicación de latencia ultrabaja, para mantener la capacidad de respuesta.
NVIDIA Dynamo agiliza este proceso con un planificador de GPU inteligente integrado, un enrutador inteligente y una biblioteca de comunicación de baja latencia, lo que hace que el escalado de agentes de IA sea perfecto y eficiente.

Generación de código

La generación de código requiere a menudo un refinamiento iterativo para ajustar indicaciones, aclarar requisitos o depurar salidas basadas en las respuestas del modelo. Esta ida y vuelta requiere un recálculo del contexto con cada vuelta de usuario, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza este proceso al permitir la reutilización del contexto y la descarga en memoria asequible, minimizando el costoso recálculo y reduciendo los costes de inferencia generales.

Testimonios de clientes

Vea lo que dicen los líderes del sector sobre NVIDIA Dynamo

Más historias de clientes

Cohere

"El escalado de modelos de IA avanzados requiere una sofisticada programación con varias GPU, una coordinación impecable y bibliotecas de comunicación de baja latencia que transfieran contextos de razonamiento a la perfección en toda la memoria y el almacenamiento. Esperamos que Dynamo nos ayude a ofrecer una experiencia de usuario de primer nivel a nuestros clientes empresariales". Saurabh Baji, vicepresidente sénior de ingeniería de Cohere

Perplexity AI

"Al manejar cientos de millones de solicitudes mensualmente, nos basamos en las GPU y el software de inferencia de NVIDIA para ofrecer el rendimiento, la fiabilidad y la escalada que exigen nuestras empresas y usuarios. "Esperamos aprovechar Dynamo con sus capacidades de servicio distribuido mejoradas para impulsar aún más eficiencias de servicio de inferencia y satisfacer las demandas de computación de nuevos modelos de razonamiento de IA". Denis Yarats, director de tecnología de Perplexity AI.

Together AI

"El escalado de modelos de razonamiento de forma rentable requiere nuevas técnicas de inferencia avanzadas, incluido el servicio desagregado y el enrutamiento consciente del contexto. Together AI ofrece un rendimiento líder en el sector utilizando nuestro motor de inferencia patentado. La apertura y la modularidad de Dynamo nos permitirán conectar a la perfección sus componentes a nuestro motor para servir más solicitudes al tiempo que optimizamos la utilización de recursos, lo que maximiza nuestra inversión en computación acelerada. " Ce Zhang, director de tecnología de Together AI.

Cohere

"El escalado de modelos de IA avanzados requiere una sofisticada programación con varias GPU, una coordinación impecable y bibliotecas de comunicación de baja latencia que transfieran contextos de razonamiento a la perfección en toda la memoria y el almacenamiento. Esperamos que NVIDIA Dynamo nos ayude a ofrecer una experiencia de usuario de primer nivel a nuestros clientes empresariales". Saurabh Baji, vicepresidente sénior de ingeniería de Cohere

Perplexity AI

"Al manejar cientos de millones de solicitudes mensualmente, nos basamos en las GPU y el software de inferencia de NVIDIA para ofrecer el rendimiento, la fiabilidad y la escalada que exigen nuestras empresas y usuarios. "Esperamos aprovechar NVIDIA Dynamo con sus capacidades de servicio distribuido mejoradas para impulsar aún más eficiencias de servicio de inferencia y satisfacer las demandas de computación de nuevos modelos de razonamiento de IA". Denis Yarats, director de tecnología de Perplexity AI.

Together AI

"El escalado de modelos de razonamiento de forma rentable requiere nuevas técnicas de inferencia avanzadas, incluido el servicio desagregado y el enrutamiento consciente del contexto. Together AI ofrece un rendimiento líder en el sector utilizando nuestro motor de inferencia patentado. La apertura y la modularidad de NVIDIA Dynamo nos permitirán conectar a la perfección sus componentes a nuestro motor para servir más solicitudes al tiempo que optimizamos la utilización de recursos, lo que maximiza nuestra inversión en computación acelerada". Ce Zhang, director de tecnología de Together AI.

Usuarios

Principales usuarios de todos los sectores

Clientes
Ecosystem Integrations

Recursos

Lo último en inferencia de NVIDIA

Blogs
Sesiones
Formación
Vídeos

Recibe las últimas noticias

Más información sobre las últimas actualizaciones y anuncios de inferencia para el servidor de inferencia NVIDIA Dynamo.

Ver todos los blogs de inferencia

Explorar blogs técnicos

Lea las instrucciones técnicas sobre cómo empezar con la inferencia.

Ver todos los blogs de inferencia técnica de LLM

Información en profundidad

Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por ordenador y mucho más.

Leer ahora

Ver todos los blogs

IA generativa y modelos lingüísticos de gran tamaño

Implementación, optimización y evaluación de LLM

Descubra cómo servir LLM de forma eficiente con instrucciones paso a paso. Veremos cómo implementar fácilmente un LLM en varios backends y comparar su rendimiento, así como cómo ajustar con precisión las configuraciones de implementación para obtener un rendimiento óptimo.

Ver sesión de la GTC a la carta

Casos de uso de IA desde el desarrollo hasta la producción

Mueva los casos de uso de IA empresarial desde el desarrollo a la producción

Descubra qué es la inferencia de IA, cómo encaja en la estrategia de implementación de IA de su empresa, cuáles son los desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, cuáles son los componentes principales de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Ver sesión a la carta

Aproveche la potencia de las soluciones de inferencia de IA listas para la nube

Explore cómo la plataforma de inferencia de NVIDIA AI se integra a la perfección con los principales proveedores de servicios en la nube, simplificando la implementación y acelerando el lanzamiento de casos de uso de IA con tecnología de LLM.

Ver sesión a la carta

Ver más sesiones

Guía de inicio rápido

¿Es nuevo en NVIDIA Dynamo y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para empezar su viaje con NVIDIA Dynamo

Leer ahora

Tutoriales

Empezar con NVIDIA Dynamo puede ocasionar muchas preguntas. Explore este repositorio para familiarizarse con las características de NVIDIA Dynamo y busque guías y ejemplos que pueden ayudarlo a facilitar la migración.

Leer ahora

NVIDIA LaunchPad

En los laboratorios prácticos, experimente la IA rápida y escalable con NVIDIA Dynamo. Podrás desbloquear inmediatamente las ventajas de la infraestructura de computación acelerada de NVIDIA y escalar tus cargas de trabajo de IA.

Explorar ahora

Las 5 razones principales por las que NVIDIA Dynamo simplifica la inferencia

El servidor de inferencia NVIDIA Dynamo simplifica la implementación de modelos de IA a escala en producción, permitiendo a los equipos implementar modelos de IA entrenados desde cualquier marco desde el almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Verlo ahora

Triton para la implementación sin esfuerzo de canalizaciones de Stable Diffusion

Implemente la canalización de Stable Diffusion de HuggingFace con NVIDIA Dynamo

Este vídeo muestra la implementación de la canalización de Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Utilizamos el servidor de inferencia NVIDIA Dynamo para implementar y ejecutar la canalización.

Verlo ahora

Empezar con el servidor de inferencia NVIDIA Triton

Empezar con el servidor de inferencia NVIDIA Dynamo

NVIDIA Dynamo es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Debido a sus muchas características, una pregunta natural que hay que hacer es, ¿por dónde empezar? Tendrás que verla para averiguarlo.

Verlo ahora

Ver más vídeos

Próximos pasos

¿Todo listo para empezar?

¡Descárguelo en GitHub y únase a la comunidad!

Para desarrolladores

Explore todo lo necesario para comenzar a desarrollar con NVIDIA Dynamo, incluyendo la última documentación, tutoriales, blogs técnicos y mucho más.

Empezar a desarrollar

Ponte en contacto con nosotros

Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.

Contactar

Descubra cómo Snapchat utiliza Triton para mejorar la experiencia de compra

Vea cómo el analizador de modelos Triton optimiza la implementación de modelos

Lea la guía del analizador de rendimiento de IA generativa

Más información sobre el servicio de canalizaciones de modelos en Triton con modelos de ensamblado

Implemente en Amazon SageMaker

Implemente en Google Vertex AI

Implemente en Azure ML Studio

Implemente en Oracle Cloud

Leer la nota de prensa | Leer el blog técnico

Blogs
Sesiones
Formación
Vídeos

Recibe las últimas noticias

Más información sobre las últimas actualizaciones y anuncios de inferencia para el servidor de inferencia Dynamo.

Ver todos los blogs de Dynamo

Explorar blogs técnicos

Lea las instrucciones técnicas sobre cómo empezar con la inferencia.

Ver todos los blogs de inferencia técnica de LLM

Información en profundidad

Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por ordenador y mucho más.

Leer ahora

Ver todos los blogs

Guía de inicio rápido

¿Es nuevo en Dynamo y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para empezar su viaje con Dynamo.

Leer ahora

Tutoriales

Empezar con Dynamo puede ocasionar muchas preguntas. Explore este repositorio para familiarizarse con las características de Dynamo y busque guías y ejemplos que pueden ayudarlo a facilitar la migración.

Leer ahora

NVIDIA LaunchPad

Explorar ahora

Ver todos los blogs

Las 5 razones principales por las que Dynamo simplifica la inferencia

Verlo ahora

Implemente la canalización de Stable Diffusion de HuggingFace con Dynamo

Este vídeo muestra la implementación de la canalización de Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Utilizamos el servidor de inferencia Dynamo para implementar y ejecutar la canalización.

Verlo ahora

Empezar con el servidor de inferencia NVIDIA Dynamo

El servidor de inferencia Dynamo es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Debido a sus muchas características, una pregunta natural que hay que hacer es, ¿por dónde empezar? Tendrás que verla para averiguarlo.

Verlo ahora

Ver todos los blogs

NVIDIA Dynamo

Descripción

Inferencia distribuida de baja latenciapara IA generativa

¿Qué es la inferencia distribuida?

Características

Explore las características de NVIDIA Dynamo

Servicio desagregado

Planificador de GPU

Enrutador inteligente

NIXL Biblioteca de comunicación de baja latencia

Ventajas

Las ventajas de NVIDIA Dynamo

Escale a la perfección desde una GPU a miles de GPU

Aumente la capacidad de servicio de inferencia al tiempo que reduce los costes

Prepare su infraestructura de IA para el futuro y evite costosas migraciones

Acelere el tiempo para implementar nuevos modelos de IA en producción

Acelere la inferencia distribuida

Desarrollo

Desarrollo

Experiencia

Implemente

Casos de uso

Implementación de IA con NVIDIA Dynamo

Servir modelos de razonamiento

Agentes de IA escalables

Generación de código

Testimonios de clientes

Vea lo que dicen los líderes del sector sobre NVIDIA Dynamo

Cohere

Perplexity AI

Together AI

Cohere

Perplexity AI

Together AI

Usuarios

Principales usuarios de todos los sectores

Recursos

Lo último en inferencia de NVIDIA

Recibe las últimas noticias

Explorar blogs técnicos

Información en profundidad

Próximos pasos

¿Todo listo para empezar?

Para desarrolladores

Ponte en contacto con nosotros

Recibe las últimas noticias

Explorar blogs técnicos

Información en profundidad

Inferencia distribuida de baja latencia
para IA generativa