Inferencia de IA
Escale y sirva IA generativa con rapidez.
NVIDIA Dynamo es un marco de inferencia modular de código abierto para servir modelos de IA generativa en entornos distribuidos. Permite un escalado perfecto de cargas de trabajo de inferencia en grandes flotas de GPU con programación dinámica de recursos, enrutamiento inteligente de solicitudes, gestión de memoria optimizada y transferencia de datos acelerada.
Al servir el modelo de razonamiento de código abierto DeepSeek-R1 671B en NVIDIA GB200 NVL72, NVIDIA Dynamo aumentó el número de solicitudes servidas hasta en 30 veces, lo que la convierte en la solución ideal para fábricas de IA que buscan ejecutarse al menor coste posible para maximizar la generación de ingresos de tokens.
NVIDIA Dynamo es compatible con todos los principales backends de inferencia de IA y cuenta con optimizaciones específicas de modelos lingüísticos de gran tamaño (LLM), como el servicio desagregado, la aceleración y el escalado de modelos de razonamiento de IA al coste más bajo y con la mayor eficiencia. Recibirá soporte como parte de NVIDIA AI Enterprise en una futura versión.
Separa las fases de contexto (prerellenado) y de generación (descodificación) de los LLM en distintas GPU, lo que permite el paralelismo de modelos personalizado y la asignación de GPU independientes para aumentar las solicitudes servidas por GPU.
Supervisa la capacidad de la GPU en entornos de inferencia distribuida y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación para resolver cuellos de botella y optimizar el rendimiento.
Enruta el tráfico de inferencia de forma eficiente y minimiza el costoso recálculo de solicitudes repetidas o solapadas para preservar los recursos de computación y garantizar una distribución de cargas equilibrada en grandes flotas de GPU.
Acelera el movimiento de datos en entornos de inferencia distribuida al tiempo que simplifica las complejidades de transferencia en diverso hardware, incluidas GPU, CPU, redes y almacenamiento.
Agilice y automatice la configuración de clústeres de GPU con herramientas prediseñadas y fáciles de implementar y permita el autoescalado dinámico con métricas específicas de LLM en tiempo real, evitando el sobreaprovisionamiento o el aprovisionamiento insuficiente de recursos de GPU.
Aproveche la inferencia de LLM avanzada que sirve optimizaciones, como el servicio desagregado, para aumentar el número de solicitudes de inferencia servidas sin poner en peligro la experiencia del usuario.
El diseño abierto y modular le permite seleccionar fácilmente los componentes que sirven inferencia y que se adaptan a sus necesidades únicas, garantizándole la compatibilidad con su pila de IA existente y evitando costosos proyectos de migración.
El soporte de NVIDIA Dynamo para todos los principales marcos, incluidos TensorRT-LLM, vLLM, SGLang, PyTorch y muchos más, garantiza su capacidad para implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.
NVIDIA Dynamo es totalmente de código abierto, lo que le ofrece transparencia y flexibilidad completas. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo a la perfección en su pila existente.
¡Échele un vistazo en GitHub y únase a la comunidad!
Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.
Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza estos modelos con características como el servicio desagregado. Este enfoque separa las fases de computación de prerellenado y descodificación en distintas GPU, lo que permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de recursos, más consultas servidas por GPU y menores costes de inferencia.
¡Descárguelo en GitHub y únase a la comunidad!
Explore todo lo necesario para comenzar a desarrollar con NVIDIA Dynamo, incluyendo la última documentación, tutoriales, blogs técnicos y mucho más.
Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.