Soluciones de inferencia de IA

Inferencia de IA más rápida y precisa

Impulse un rendimiento innovador a escala de centros de datos con sus aplicaciones y servicios habilitados por IA.

Explorar software

Descargar el libro electrónico | Pruebas de referencia de rendimiento | Para desarrolladores

Descripción
Ventajas
Software
Hardware
Casos de uso
Casos de éxito
Recursos
Próximos pasos

Descripción
Ventajas
Software
Hardware
Casos de uso
Casos de éxito
Recursos
Próximos pasos

Empezar

Descripción general

¿Cuál es la forma inteligente de escalar la inferencia de IA?

Una sola pregunta. Un conjunto de tokens para la respuesta. Esto se llama inferencia de IA. A medida que los modelos aumentan de tamaño y complejidad, las organizaciones necesitan un enfoque de pila completa y herramientas integrales para tener éxito en esta nueva era de leyes de escalado de IA.

Con los modelos de razonamiento que generan exponencialmente más tokens de IA, la demanda de computación está aumentando. Para satisfacerla, se necesitan fábricas de IA, una infraestructura diseñada específicamente y optimizada para la inferencia a escala con NVIDIA Blackwell, diseñada para ofrecer rendimiento, eficiencia y ROI en todos los sectores.

La optimización de la inferencia de pila completa es la clave para garantizar que esté pensando inteligentemente en escalar la IA a escala de fábrica de IA.

Los MoE (mezcla de expertos) son el motor de los modelos de IA fronteriza más inteligentes, que se ejecuta 10 veces más rápido en NVIDIA Blackwell NVL72

Descubra por qué el diseño conjunto extremo de NVIDIA Blackwell NVL72 es el único sistema de tipo rack capaz de ofrecer un salto de rendimiento de inferencia diez veces superior en una amplia gama de modelos de mezcla de expertos (MoE), entre ellos Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3.

Leer el anuncio

AWS, Google, Microsoft y OCI potencian el rendimiento de inferencia de IA para clientes en la nube con NVIDIA Dynamo

NVIDIA Dynamo colabora con Kubernetes para agilizar la gestión de la inferencia de IA de un solo nodo y de múltiples nodos. NVIDIA Grove, una nueva API presente en NVIDIA Dynamo, organiza la inferencia del sistema a partir de una única especificación de alto nivel. Dynamo se integra en los servicios gestionados de Kubernetes de todos los principales proveedores de nube, lo cual permite a los clientes escalar en toda la arquitectura NVIDIA Blackwell.

Leer el blog

NVIDIA Blackwell maximiza el retorno de la inversión en inferencia de IA

NVIDIA Blackwell permite los mayores ingresos para fábricas de IA, incluido un retorno de la inversión hasta 15 veces superior. Esto es el resultado de un diseño conjunto extremo en NVIDIA Blackwell, NVLink™ y NVLink Switch para la escalabilidad horizontal; NVFP4 para la precisión de baja resolución; y NVIDIA Dynamo y TensorRT™-LLM para la velocidad y la flexibilidad, así como el desarrollo con los marcos comunitarios SGLang, vLLM y muchos más.

Los resultados de DeepSeek-R1 8K/1K muestran una ventaja de rendimiento y una oportunidad de ingresos 15 veces superior para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.

NVIDIA TensorRT-LLM registra un rendimiento máximo de 60 000 TPS/GPU, una interactividad máxima de 1000 TPS/usuario y una mejora del rendimiento cinco veces superior en dos meses, en gpt-oss-120b.

Ventajas

Explora las ventajas de NVIDIA AI para la inferencia acelerada

Estandarizar la implementación

Estandariza la implementación de modelos en aplicaciones, marcos de IA, arquitecturas de modelos y plataformas.

Integra y escala con facilidad

Integra fácilmente con herramientas y plataformas en nubes públicas, en centros de datos locales y en el perímetro.

Menor coste

Consigue un alto rendimiento y utilización de la infraestructura de IA, reduciendo así los costes.

Alto rendimiento

Disfruta del mejor rendimiento del sector con la plataforma que ha establecido múltiples récords en MLPerf

, el punto de referencia líder del sector para la IA.

Software

Explora nuestro software de inferencia de IA

NVIDIA AI Enterprise consta de NVIDIA NIM™, NVIDIA Triton™ Inference Server, NVIDIA® TensorRT™ y otras herramientas para simplificar la creación, el uso compartido y la implementación de aplicaciones de IA. Con el soporte, la estabilidad, la gestión y la seguridad de nivel empresarial, las empresas pueden acelerar el tiempo de obtención del valor mientras eliminan el tiempo de inactividad no planificado.

Escale y preste servicio de IA de forma dinámica con inferencia distribuida

NVIDIA Dynamo es un software de inferencia de código abierto para acelerar la implementación de modelos de IA a escala de fábricas de IA. Al utilizar el servicio desagregado, Dynamo divide las tareas de inferencia en componentes más pequeños, direccionando y redireccionando dinámicamente las cargas de trabajo a los recursos de computación óptimos que estén disponibles en ese momento.

Más información sobre NVIDIA Dynamo

Potenciar la próxima generación de agentes de IA

NVIDIA NIM es un conjunto de microservicios fáciles de usar diseñados para implementar, de forma segura y fiable, inferencias de modelos de IA de alto rendimiento en todo tipo de nubes, centros de datos y estaciones de trabajo.

Más información sobre NVIDIA NIM

Un SDK para un rendimiento de inferencia líder en el sector

TensorRT-LLM es una biblioteca de código abierto para posibilitar inferencia de LLM de alto rendimiento y en tiempo real en unidades GPU de NVIDIA. Como tiene un tiempo de ejecución de Python modular, autoría nativa de PyTorch y una API de producción estable, está optimizada para maximizar el rendimiento, minimizar los costes y brindar experiencias de usuario muy ágiles.

Más información sobre TensorRT-LLM

Inferencia sin servidor NVIDIA DGX Cloud

Una solución de inferencia de IA sin servidor que acelera la innovación de IA con escalado automático, utilización de GPU eficiente en costes, flexibilidad multinube y escalabilidad perfecta.

Más información sobre la inferencia sin servidor DGX Cloud

Hardware

Explora nuestra infraestructura de inferencia de IA

Obtenga un rendimiento de IA inigualable con el software de inferencia de IA de NVIDIA optimizado para la infraestructura acelerada por NVIDIA. Las tecnologías NVIDIA Blackwell Ultra, GPU H200, NVIDIA RTX PRO™ 6000 Blackwell Server Edition y NVIDIA RTX™ proporcionan una velocidad y eficiencia excepcionales para cargas de trabajo de inferencia de IA en centros de datos, nubes y estaciones de trabajo.

NVIDIA GB300 NVL72

La demanda de inferencia de IA está en pleno auge, y NVIDIA Blackwell Ultra está diseñada para estar a la altura de esas circunstancias. Con una capacidad de 1,4 exaFLOPS en un solo bastidor, NVIDIA GB300 NVL72 combina 72 GPU NVIDIA Blackwell Ultra con NVIDIA NVLink™ y NVFP4 para impulsar modelos masivos con una eficiencia extrema, lo cual permite alcanzar una producción de fábrica de IA 50 veces superior, al tiempo que reduce los costes de tókenes y acelera el razonamiento en tiempo real a escala.

Más información sobre GB300 NVL72

GPU NVIDIA H200

La GPU NVIDIA H200, parte de la plataforma NVIDIA Hopper, hiperpotencia las cargas de trabajo de IA generativa y computación de alto rendimiento (HPC) con capacidades de rendimiento y memoria disruptivas. Al ser la primera GPU con HBM3e, la memoria más grande y rápida de la H200 impulsa la aceleración de la IA generativa y los modelos lingüísticos de gran tamaño (LLM) al tiempo que supone un avance para la computación científica para cargas de trabajo de HPC.

Más información sobre H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

La GPU RTX PRO 6000 Blackwell Server Edition proporciona un rendimiento de inferencia superpotente en una amplia gama de modelos de IA, que alcanza un rendimiento hasta cinco veces superior para aplicaciones de IA de agentes y generativa a escala empresarial en comparación con la NVIDIA L40S de la generación anterior. Los servidores NVIDIA RTX PRO™, disponibles a través de partners de sistemas globales, ponen el rendimiento y la eficiencia de la arquitectura Blackwell al alcance de todos los centros de datos empresariales.

Más información sobre RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

La RTX PRO 6000 Blackwell Workstation Edition es la primera GPU de escritorio que suministra 96 GB de memoria de la GPU. La potencia de la arquitectura de GPU Blackwell, combinada con una inmensa memoria de la GPU y la pila de software de IA de NVIDIA, habilita que las estaciones de trabajo con tecnología RTX PRO puedan ofrecer una aceleración espectacular para la IA generativa y la inferencia de LLM directamente en equipos de escritorio.

Más información sobre RTX PRO 6000 Blackwell Workstation Edition.

Explore la historia de trasfondo de la IA a escala

¿Alguna vez se ha preguntado cómo las complejas soluciones de compromiso de IA se transforman en resultados en el mundo real? Explore diferentes puntos de las curvas de rendimiento a continuación para ver de primera mano cómo las innovaciones en configuraciones de hardware e implementación afectan a la eficiencia de los centros de datos y a la experiencia del usuario.

TPS/usuario

–

TPS/MW

–

Experiencia de chat simulada

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con desagregación FP4 Dynamo H100 con lotes en vuelo FP8. El rendimiento proyectado está sujeto a cambios.

¿Se pregunta cómo cada configuración se traduce en experiencias de usuario reales? Explore las curvas por su cuenta o con la orientación de TJ pulsando en «Explorar con TJ» y compruebe cómo se materializan en el chat simulado de la derecha.

Explore todo lo que puede hacer con el Configurador de IA de NVIDIA Dynamo

Casos de éxito

Cómo los líderes del sector impulsan la innovación con la inferencia de IA

Más historias de clientes

Amdocs

Acelera el rendimiento de la IA generativa y reduce los costes

Descubre cómo Amdocs creó amAIz, una plataforma de IA generativa específica de dominio para empresas de telecomunicaciones, que utiliza los microservicios de inferencia NVIDIA DGX™ Cloud y NVIDIA NIM para mejorar la latencia, aumentar la precisión y reducir los costes.

Leer el caso de práctico

Snapchat

Mejorar la compra de ropa con la IA

Descubre cómo Snapchat mejoró la experiencia de compra de ropa y el reconocimiento óptico de caracteres capaz de reconocer los emoji con el servidor de inferencia Triton para escalar, reducir costes y acelerar el tiempo de producción.

Leer el caso de práctico

Amazon

Acelera la satisfacción del cliente

Descubre cómo Amazon mejoró la satisfacción del cliente acelerando por cinco su inferencia gracias a TensorRT.

Leer el caso de práctico

Recursos

Lo último en recursos de inferencia por IA

Blogs
Sesiones
Formación
Vídeos

Ver más blogs

Ver más sesiones

Da tus primeros pasos en la inferencia con NVIDIA LaunchPad

¿Ya tienes un proyecto de IA? Haz una solicitud para obtener experiencia práctica en las pruebas y la creación de prototipos de tus soluciones de IA.

Solicitar

Explora las rutas de aprendizaje de la IA generativa y los LLM

Mejora tus habilidades técnicas en IA generativa y en modelos lingüísticos de gran tamaño con nuestras completas rutas de aprendizaje.

Explorar ahora

Empieza con la inferencia generativa de IA en NVIDIA LaunchPad

Acelera tu viaje hacia la IA generativa gracias al acceso inmediato y a corto plazo a los microservicios de inferencia NVIDIA NIM y a los modelos de IA, totalmente gratis.

Empezar

Ver más formación

Ver más vídeos

Próximos pasos

¿Listo para empezar?

Explora todo lo necesario para empezar a desarrollar tu aplicación de IA, incluidas las últimas documentaciones, tutoriales, blogs técnicos y mucho más.

Ponte en contacto con nosotros

Habla con un especialista en productos NVIDIA sobre cómo pasar del piloto a la producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.

Contactar

Obtén lo último en IA de NVIDIA

Suscríbete para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.

Mantente al día

Próximos pasos

¿Listo para empezar?

Explore todo lo necesario para empezar a desarrollar tu aplicación de IA, incluidas las últimas documentaciones, tutoriales, blogs técnicos y mucho más.

Empezar a desarrollar Start Building

Póngase en contacto con nosotros

Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.

Contacto

Hágase con lo último en inferencia de IA de NVIDIA

Suscríbase para obtener las últimas noticias empresariales, los anuncios y mucho más de NVIDIA.

Manténgase informado

Inferencia de IA más rápida y precisa

Descripción general

¿Cuál es la forma inteligente de escalar la inferencia de IA?

Los MoE (mezcla de expertos) son el motor de los modelos de IA fronteriza más inteligentes, que se ejecuta 10 veces más rápido en NVIDIA Blackwell NVL72

AWS, Google, Microsoft y OCI potencian el rendimiento de inferencia de IA para clientes en la nube con NVIDIA Dynamo

NVIDIA Blackwell maximiza el retorno de la inversión en inferencia de IA

Ventajas

Explora las ventajas de NVIDIA AI para la inferencia acelerada

Estandarizar la implementación

Integra y escala con facilidad

Menor coste

Alto rendimiento

Software

Explora nuestro software de inferencia de IA

Escale y preste servicio de IA de forma dinámica con inferencia distribuida

Potenciar la próxima generación de agentes de IA

Un SDK para un rendimiento de inferencia líder en el sector

Inferencia sin servidor NVIDIA DGX Cloud

Hardware

Explora nuestra infraestructura de inferencia de IA

NVIDIA GB300 NVL72

GPU NVIDIA H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

Explore la historia de trasfondo de la IA a escala

Casos de éxito

Cómo los líderes del sector impulsan la innovación con la inferencia de IA

Acelera el rendimiento de la IA generativa y reduce los costes

Mejorar la compra de ropa con la IA

Acelera la satisfacción del cliente

Recursos

Lo último en recursos de inferencia por IA

Da tus primeros pasos en la inferencia con NVIDIA LaunchPad

Explora las rutas de aprendizaje de la IA generativa y los LLM

Empieza con la inferencia generativa de IA en NVIDIA LaunchPad

Próximos pasos

¿Listo para empezar?

Ponte en contacto con nosotros

Obtén lo último en IA de NVIDIA

Próximos pasos

¿Listo para empezar?

Póngase en contacto con nosotros

Hágase con lo último en inferencia de IA de NVIDIA

Reciba las últimas noticias de NVIDIA sobre inferencia de AI