Soluciones de inferencia de IA

Plataforma de inferencia de NVIDIA

Un impulso para las fábricas de IA más eficientes, más rentables y con mayor rendimiento.

Empezar

Leer la serie | Pruebas de referencia de rendimiento | Para desarrolladores

Descripción
Rendimiento
Ventajas
Retorno de la inversión (ROI)
Plataforma
Historias de clientes
Recursos
Próximos pasos

Descripción
Rendimiento
Ventajas
Retorno de la inversión (ROI)
Plataforma
Historias de clientes
Recursos
Próximos pasos

Empezar

Descripción

¿Cuál es la forma inteligente de escalar la IA con el menor coste posible?

La inferencia de IA —la forma en la que experimentamos la IA a través de chatbots, copilotos y herramientas creativas— se está escalando a un ritmo exponencial doble. La adopción por parte de los usuarios se está acelerando mientras que los tókenes de IA generados mediante interacción, impulsados por flujos de trabajo de agentes, razonamiento de pensamiento a largo plazo y modelos de mezcla de expertos (MoE), se incrementan vertiginosamente en paralelo.

Para permitir la inferencia a esta escala masiva, NVIDIA proporciona una arquitectura a escala de centro de datos con periodicidad anual. Nuestro diseño conjunto extremo de hardware y software brinda avances desorbitados en el rendimiento, reduce el coste por token y posibilita mayores ingresos y beneficios.

NVIDIA Blackwell NVL72 aporta un rendimiento de inferencia más de 10 veces superior en comparación con NVIDIA H200 en una amplia gama de modelos MoE, como Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3.

El diseño conjunto extremo ofrece un coste un 10 % menor con NVLink para mezcla de expertos (MoE)

Al procesar diez veces más tókenes usando el mismo tiempo y energía, el coste por token se reduce drásticamente, lo cual permite implementar los modelos de mezcla de expertos (MoE) en productos cotidianos. Así es como la inteligencia más avanzada se generaliza.

Leer el blog

NVIDIA Blackwell establece el estándar para el retorno de la inversión en inferencia

NVIDIA Blackwell superó con creces las nuevas pruebas de referencia SemiAnalysis InferenceMAX v1 y obtuvo el mayor rendimiento de inferencia de IA y la mejor eficiencia general. NVIDIA Blackwell permite obtener los mayores ingresos para fábricas de IA: una inversión de 5 millones de dólares en GB200 NVL72 genera 75 millones de dólares en ingresos por token, lo cual supone un retorno de la inversión 15 veces superior.

Explore los resultados clave

NVIDIA Blackwell NVL72 para conseguir el menor coste por token

NVIDIA Blackwell permite los mayores ingresos para fábricas de IA, incluido un retorno de la inversión hasta 15 veces superior. Esto es el resultado de un diseño conjunto extremo de NVIDIA Blackwell, NVLink™ y NVLink Switch para la escalabilidad horizontal; NVFP4 para precisión de baja resolución; y NVIDIA Dynamo y TensorRT™ LLM para ofrecer velocidad y flexibilidad, así como desarrollo con los marcos comunitarios SGLang, vLLM y muchos más.

Una inversión de 5 millones USD en GB200 NVL72 puede generar 75 millones USD en ingresos por token

Haga clic para ampliar la imagen

Los resultados de DeepSeek-R1 8K/1K muestran una ventaja de rendimiento y una oportunidad de ingresos 15 veces superior para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.

Ventajas

Explore las ventajas de Think SMART

La plataforma de inferencia de NVIDIA brinda una serie de ventajas recopiladas en el marco Think SMART, que incluyen escala y eficiencia, rendimiento multidimensional, arquitectura y diseño conjunto de software, retorno de la inversión impulsado por el rendimiento y un amplio ecosistema tecnológico.

Maximizar el rendimiento

NVIDIA Blackwell ofrece un rendimiento puntero en el sector en diversos casos de uso, equilibrando de forma eficaz varias dimensiones: capacidad de procesamiento, latencia, inteligencia, coste y eficiencia energética. En modelos inteligentes de mezcla de expertos, como Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3, los usuarios pueden obtener un rendimiento hasta 10 veces superior en NVIDIA Blackwell NVL72 en comparación con el de H200.

Un coste más bajo por token

NVIDIA Blackwell NVL72 cuesta una décima parte del coste por token para modelos de MoE. El rendimiento es la principal variable para reducir el coste por token y maximizar los ingresos de la IA. Al procesar diez veces más tókenes empleando el mismo tiempo y energía, el coste por token se reduce drásticamente, lo cual permite implementar los modelos de mezcla de expertos (MoE) en productos cotidianos.

Escalar de forma eficiente

Gracias a la innovación de pila completa en computación, redes y software, NVIDIA le permite escalar de forma eficiente implementaciones de IA complejas.

Integrar fácilmente

NVIDIA provee una plataforma de eficacia probada con una base de instalación de cientos de millones de unidades GPU CUDA®, 7 millones de desarrolladores, contribuciones a más de 1000 proyectos de código abierto e integraciones profundas con entornos de trabajo como PyTorch, JAX, SGLang, vLLM y muchos más.

Retorno de la inversión (ROI)

El rendimiento como motor de rentabilidad

Cuanto más rápido pueda su sistema generar tókenes y proporcionar, al mismo tiempo, una experiencia de usuario fluida, mayores serán los ingresos que podrá obtener con la misma energía y costes. NVIDIA Blackwell aporta 75 millones USD en ingresos por cada 5 millones USD invertidos en gasto de capital, lo cual supone un retorno de la inversión 15 veces superior.

Más información

Plataforma

Diseño conjunto de hardware y software extremo

Un hardware potente sin una orquestación inteligente desperdicia parte de su potencial; un software excepcional sin un hardware rápido se traduce en un rendimiento de inferencia lento. La innovación de pila completa de NVIDIA en computación, redes y software habilita el máximo rendimiento en diversos tipos de cargas de trabajo. Explore algunas de las innovaciones clave de hardware y software de NVIDIA.

NVIDIA Grace Blackwell NVL72

Al suministrar 1,4 exaFLOPS en un único bastidor, NVIDIA GB200 NVL72 reúne 72 GPU NVIDIA Blackwell con NVIDIA NVLink™ y NVSwitch™ para implementar modelos de razonamiento masivo a escala, a la vez que reduce los costes de los tókenes un 10 %.

Más información sobre GB200 NVL72

NVIDIA Blackwell

NVIDIA HGX™ B200, basado en la arquitectura NVIDIA Blackwell, cuenta con 8 GPU NVIDIA Blackwell conectadas mediante NVSwitch ultrarrápido. Proporciona un alto rendimiento de inferencia de IA y eficiencia energética para inferencia de IA a gran escala.

Más información sobre la plataforma NVIDIA B200 HGX

NVIDIA Dynamo

NVIDIA Dynamo es un marco de servicio de inferencia distribuida para implementar modelos en entornos de varios nodos a escala de fábrica de IA. Agiliza el servicio distribuido al desagregar la inferencia, optimizar el enrutamiento y ampliar la memoria mediante el almacenamiento en caché de datos a niveles de almacenamiento rentables.

Más información sobre NVIDIA Dynamo

TensorRT LLM

TensorRT™-LLM es una biblioteca de código abierto para inferencia de modelos lingüísticos de gran tamaño (LLM) de alto rendimiento y en tiempo real en las GPU NVIDIA. Como tiene un tiempo de ejecución de Python modular, autoría nativa de PyTorch y una API de producción estable, está optimizada para maximizar el rendimiento, minimizar los costes y brindar experiencias de usuario muy ágiles.

Más información sobre TensorRT-LLM

Hardware

Explora nuestra infraestructura de inferencia de IA

Obtenga un rendimiento de IA inigualable con el software de inferencia de IA de NVIDIA optimizado para la infraestructura acelerada por NVIDIA. Las tecnologías NVIDIA Blackwell Ultra, GPU H200, NVIDIA RTX PRO™ 6000 Blackwell Server Edition y NVIDIA RTX™ proporcionan una velocidad y eficiencia excepcionales para cargas de trabajo de inferencia de IA en centros de datos, nubes y estaciones de trabajo.

NVIDIA GB300 NVL72

La demanda de inferencia de IA está en pleno auge, y NVIDIA Blackwell Ultra está diseñada para estar a la altura de esas circunstancias. Con una capacidad de 1,4 exaFLOPS en un solo bastidor, NVIDIA GB300 NVL72 combina 72 GPU NVIDIA Blackwell Ultra con NVIDIA NVLink™ y NVFP4 para impulsar modelos masivos con una eficiencia extrema, lo cual permite alcanzar una producción de fábrica de IA 50 veces superior, al tiempo que reduce los costes de tókenes y acelera el razonamiento en tiempo real a escala.

Más información sobre GB300 NVL72

GPU NVIDIA H200

La GPU NVIDIA H200, parte de la plataforma NVIDIA Hopper, hiperpotencia las cargas de trabajo de IA generativa y computación de alto rendimiento (HPC) con capacidades de rendimiento y memoria disruptivas. Al ser la primera GPU con HBM3e, la memoria más grande y rápida de la H200 impulsa la aceleración de la IA generativa y los modelos lingüísticos de gran tamaño (LLM) al tiempo que supone un avance para la computación científica para cargas de trabajo de HPC.

Más información sobre H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

La GPU RTX PRO 6000 Blackwell Server Edition proporciona un rendimiento de inferencia superpotente en una amplia gama de modelos de IA, que alcanza un rendimiento hasta cinco veces superior para aplicaciones de IA de agentes y generativa a escala empresarial en comparación con la NVIDIA L40S de la generación anterior. Los servidores NVIDIA RTX PRO™, disponibles a través de partners de sistemas globales, ponen el rendimiento y la eficiencia de la arquitectura Blackwell al alcance de todos los centros de datos empresariales.

Más información sobre RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

La RTX PRO 6000 Blackwell Workstation Edition es la primera GPU de escritorio que suministra 96 GB de memoria de la GPU. La potencia de la arquitectura de GPU Blackwell, combinada con una inmensa memoria de la GPU y la pila de software de IA de NVIDIA, habilita que las estaciones de trabajo con tecnología RTX PRO puedan ofrecer una aceleración espectacular para la IA generativa y la inferencia de LLM directamente en equipos de escritorio.

Más información sobre RTX PRO 6000 Blackwell Workstation Edition.

Descodificar los puntos del análisis de rendimiento de Pareto

¿Alguna vez se ha preguntado cómo las complejas soluciones de compromiso de IA se transforman en resultados en el mundo real? Explore diferentes puntos de todas las curvas de rendimiento que se muestran a continuación para comprobar de primera mano cómo el diseño conjunto extremo de hardware y software convierte a NVIDIA Blackwell Ultra en la opción más eficiente, más rentable y con mejor rendimiento.

TPS/usuario

–

TPS / MW

–

Experiencia de chat simulada

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con desagregación FP4 Dynamo H100 con lotes en vuelo FP8. El rendimiento proyectado está sujeto a cambios.

¿Se pregunta cómo cada configuración se traduce en experiencias de usuario reales? Explore las curvas por su cuenta o con la orientación de TJ pulsando en «Explorar con TJ» y compruebe cómo se materializan en el chat simulado de la derecha.

Explore todo lo que puede hacer con el Configurador de IA de NVIDIA Dynamo

Historias de clientes

Cómo los líderes del sector impulsan la innovación con la inferencia de IA

Más casos de éxito

Amdocs

Acelera el rendimiento de la IA generativa y reduce los costes

Descubre cómo Amdocs creó amAIz, una plataforma de IA generativa específica de dominio para empresas de telecomunicaciones, que utiliza los microservicios de inferencia NVIDIA DGX™ Cloud y NVIDIA NIM para mejorar la latencia, aumentar la precisión y reducir los costes.

Leer el caso práctico

Snapchat

Mejorar la compra de ropa con la IA

Descubre cómo Snapchat mejoró la experiencia de compra de ropa y el reconocimiento óptico de caracteres capaz de reconocer los emoji con el servidor de inferencia Triton para escalar, reducir costes y acelerar el tiempo de producción.

Leer el caso práctico

Amazon

Acelera la satisfacción del cliente

Descubre cómo Amazon mejoró la satisfacción del cliente acelerando por cinco su inferencia gracias a TensorRT.

Leer el caso práctico

Recursos

Lo último en recursos de inferencia por IA

Blogs
Sesiones
Formación
Vídeos

Ver más sesiones

Da tus primeros pasos en la inferencia con NVIDIA LaunchPad

¿Ya tienes un proyecto de IA? Haz una solicitud para obtener experiencia práctica en las pruebas y la creación de prototipos de tus soluciones de IA.

Solicitar ahora

Explora las rutas de aprendizaje de la IA generativa y los LLM

Mejora tus habilidades técnicas en IA generativa y en modelos lingüísticos de gran tamaño con nuestras completas rutas de aprendizaje.

Explorar ahora

Empieza con la inferencia generativa de IA en NVIDIA LaunchPad

Acelera tu viaje hacia la IA generativa gracias al acceso inmediato y a corto plazo a los microservicios de inferencia NVIDIA NIM y a los modelos de IA, totalmente gratis.

Empezar

Ver más formación

Ver más vídeos

Próximos pasos

¿Todo listo para empezar?

Explore todo lo necesario para empezar a desarrollar tu aplicación de IA, incluidas las últimas documentaciones, tutoriales, blogs técnicos y mucho más.

Empezar a desarrollar Empiece a crear

Encuentre el hardware idóneo para sus cargas de trabajo de inferencia

Las soluciones de NVIDIA Data Center se encuentran disponibles a través de una selección de colaboradores de NVIDIA Partner Network (NPN). Explore las opciones flexibles y asequibles para acceder a las últimas tecnologías del centro de datos de NVIDIA a través de nuestros partners.

Explorar NVIDIA Marketplace

Hágase con lo último en inferencia de IA de NVIDIA

Suscríbase para obtener las últimas noticias, actualizaciones y mucho más sobre inferencia de IA.

Manténgase al corriente

TPS/usuario

–

TPS/MW

–

Experiencia de chat simulada

Plataforma de inferencia de NVIDIA

Descripción

¿Cuál es la forma inteligente de escalar la IA con el menor coste posible?

El diseño conjunto extremo ofrece un coste un 10 % menor con NVLink para mezcla de expertos (MoE)

NVIDIA Blackwell establece el estándar para el retorno de la inversión en inferencia

NVIDIA Blackwell NVL72 para conseguir el menor coste por token

Una inversión de 5 millones USD en GB200 NVL72 puede generar 75 millones USD en ingresos por token

Ventajas

Explore las ventajas de Think SMART

Maximizar el rendimiento

Un coste más bajo por token

Escalar de forma eficiente

Integrar fácilmente

Retorno de la inversión (ROI)

Plataforma

Diseño conjunto de hardware y software extremo

NVIDIA Grace Blackwell NVL72

NVIDIA Blackwell

NVIDIA Dynamo

TensorRT LLM

Hardware

Explora nuestra infraestructura de inferencia de IA

NVIDIA GB300 NVL72

GPU NVIDIA H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

Descodificar los puntos del análisis de rendimiento de Pareto

Historias de clientes

Cómo los líderes del sector impulsan la innovación con la inferencia de IA

Acelera el rendimiento de la IA generativa y reduce los costes

Mejorar la compra de ropa con la IA

Acelera la satisfacción del cliente

Recursos

Lo último en recursos de inferencia por IA

Da tus primeros pasos en la inferencia con NVIDIA LaunchPad

Explora las rutas de aprendizaje de la IA generativa y los LLM

Empieza con la inferencia generativa de IA en NVIDIA LaunchPad

Próximos pasos

¿Todo listo para empezar?

Encuentre el hardware idóneo para sus cargas de trabajo de inferencia

Hágase con lo último en inferencia de IA de NVIDIA

Reciba las últimas noticias de NVIDIA sobre inferencia de AI