La inferencia de IA —la forma en la que experimentamos la IA a través de chatbots, copilotos y herramientas creativas— se está escalando a un ritmo exponencial doble. La adopción por parte de los usuarios se está acelerando mientras que los tókenes de IA generados mediante interacción, impulsados por flujos de trabajo de agentes, razonamiento de pensamiento a largo plazo y modelos de mezcla de expertos (MoE), se incrementan vertiginosamente en paralelo.
Para permitir la inferencia a esta escala masiva, NVIDIA proporciona una arquitectura a escala de centro de datos con periodicidad anual. Nuestro diseño conjunto extremo de hardware y software brinda avances desorbitados en el rendimiento, reduce el coste por token y posibilita mayores ingresos y beneficios.
NVIDIA Blackwell NVL72 aporta un rendimiento de inferencia más de 10 veces superior en comparación con NVIDIA H200 en una amplia gama de modelos MoE, como Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3.
La plataforma de inferencia de NVIDIA brinda una serie de ventajas recopiladas en el marco Think SMART, que incluyen escala y eficiencia, rendimiento multidimensional, arquitectura y diseño conjunto de software, retorno de la inversión impulsado por el rendimiento y un amplio ecosistema tecnológico.
NVIDIA Blackwell ofrece un rendimiento puntero en el sector en diversos casos de uso, equilibrando de forma eficaz varias dimensiones: capacidad de procesamiento, latencia, inteligencia, coste y eficiencia energética. En modelos inteligentes de mezcla de expertos, como Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3, los usuarios pueden obtener un rendimiento hasta 10 veces superior en NVIDIA Blackwell NVL72 en comparación con el de H200.
NVIDIA Blackwell NVL72 cuesta una décima parte del coste por token para modelos de MoE. El rendimiento es la principal variable para reducir el coste por token y maximizar los ingresos de la IA. Al procesar diez veces más tókenes empleando el mismo tiempo y energía, el coste por token se reduce drásticamente, lo cual permite implementar los modelos de mezcla de expertos (MoE) en productos cotidianos.
Gracias a la innovación de pila completa en computación, redes y software, NVIDIA le permite escalar de forma eficiente implementaciones de IA complejas.
NVIDIA provee una plataforma de eficacia probada con una base de instalación de cientos de millones de unidades GPU CUDA®, 7 millones de desarrolladores, contribuciones a más de 1000 proyectos de código abierto e integraciones profundas con entornos de trabajo como PyTorch, JAX, SGLang, vLLM y muchos más.
El rendimiento como motor de rentabilidad
Cuanto más rápido pueda su sistema generar tókenes y proporcionar, al mismo tiempo, una experiencia de usuario fluida, mayores serán los ingresos que podrá obtener con la misma energía y costes. NVIDIA Blackwell aporta 75 millones USD en ingresos por cada 5 millones USD invertidos en gasto de capital, lo cual supone un retorno de la inversión 15 veces superior.
Un hardware potente sin una orquestación inteligente desperdicia parte de su potencial; un software excepcional sin un hardware rápido se traduce en un rendimiento de inferencia lento. La innovación de pila completa de NVIDIA en computación, redes y software habilita el máximo rendimiento en diversos tipos de cargas de trabajo. Explore algunas de las innovaciones clave de hardware y software de NVIDIA.