El motor detrás de las fábricas de IA para la era del razonamiento con IA, ahora en plena producción.
Explore los avances revolucionarios que la arquitectura NVIDIA Blackwell aporta a la IA generativa y a la computación acelerada. Diseñada a partir de generaciones de tecnologías NVIDIA, Blackwell define el próximo capítulo de la IA generativa con un desempeño, una eficiencia y una escala sin precedentes.
Las GPU de arquitectura Blackwell contienen 208 mil millones de transistores y se fabrican utilizando un proceso de TSMC de 4NP diseñado a medida. Todos los productos Blackwell cuentan con dos chips limitados por retículas conectados mediante una interconexión de chip a chip de 10 terabytes por segundo (TB/s) en una única GPU unificada.
La segunda generación del Transformer Engine utiliza la tecnología personalizada de los núcleos Tensor de Blackwell combinada con las innovaciones de NVIDIA® TensorRT™-LLM y NeMo™ Framework para acelerar la inferencia y el entrenamiento de modelos lingüísticos de gran tamaño (LLM) y modelos de mezcla de expertos (MoE). Los núcleos Tensor de Blackwell añaden nuevas precisiones, incluidos nuevos formatos de microescalado definidos por la comunidad, lo que da una alta exactitud y facilidad de reemplazo para conseguir mayor precisión.
Los núcleos tensores Blackwell Ultra están sobrealimentados con una aceleración de capa de atención 2 veces superior y 1,5 veces más FLOPS de computación de IA en comparación con las GPU Blackwell. El Blackwell Transformer Engine utiliza técnicas de escalado de grano fino llamadas escalado microtensorial, para optimizar el desempeño y la precisión permitiendo la IA de punto flotante de 4 bits (FP4). Esto duplica el desempeño y el tamaño de los modelos de próxima generación compatibles con la memoria a la vez que mantiene una gran exactitud.
Blackwell incluye NVIDIA Confidential Computing, que protege los datos confidenciales y los modelos de IA del acceso no autorizado con una sólida seguridad basada en hardware. Blackwell es la primera GPU con capacidad TEE-I/O del sector, y proporciona la solución de computación confidencial más eficiente con hosts compatibles con TEE-I/O y protección en línea a través de NVIDIA NVLink™. Blackwell Confidential Computing ofrece un rendimiento de transferencia casi idéntico al de los modos no cifrados. Las empresas pueden proteger ahora incluso los modelos de mayor tamaño de forma eficiente, además de proteger la propiedad intelectual (IP) de la IA y habilitar de forma segura el entrenamiento confidencial de la IA, la inferencia y el aprendizaje federado.
El desbloqueo de todo el potencial de la computación a exaescala y de los modelos de IA con billones de parámetros depende de la necesidad de una comunicación rápida y perfecta entre cada GPU dentro de un clúster de servidores. La quinta generación de interconexión NVIDIA NVLink puede escalar hasta 576 GPU para acelerar el desempeño de modelos de IA con billones e incluso trillones de parámetros.
El chip de conmutación NVIDIA NVLink permite 130 TB/s de ancho de banda de GPU en un dominio NVLink de 72 GPU (NVL72) y ofrece una eficiencia de ancho de banda 4 veces mayor al ser compatible con el protocolo escalable de agregación y reducción jerárquica (SHARP)™ FP8 de NVIDIA. El chip de conmutación NVIDIA NVLink admite clústeres más allá de un solo servidor en la misma impresionante interconexión de 1,8 TB/s. Clústeres multiservidor con comunicaciones por GPU a escala de NVLink en equilibrio con el aumento de la computación, por lo que NVL72 puede admitir 9 veces el recuento de GPU que un solo sistema de ocho GPU.
El análisis de datos y los flujos de trabajo de bases de datos se han basado tradicionalmente en las CPU para la computación. Una ciencia de datos acelerada puede aumentar espectacularmente el desempeño del análisis de extremo a extremo, lo que acelera la generación de valor al tiempo que se reducen los costes. Las bases de datos, incluida Apache Spark, desempeñan funciones críticas en el manejo, el procesamiento y el análisis de grandes volúmenes de datos para el análisis de datos.
El motor de descompresión de Blackwell y la capacidad de acceder a cantidades masivas de memoria en la CPU NVIDIA Grace™ a través de un enlace de alta velocidad —900 gigabytes por segundo (GB/s) de ancho de banda bidireccional— aceleran la canalización completa de consultas de base de datos para lograr el máximo desempeño en el análisis de datos y la ciencia de datos con compatibilidad con los últimos formatos de compresión, como LZ4, Snappy y Deflate.
Blackwell añade resiliencia inteligente con un motor dedicado de fiabilidad, disponibilidad y capacidad de mantenimiento (RAS) para identificar posibles fallos que pueden ocurrir desde el principio para minimizar el tiempo de inactividad. Las capacidades de gestión predictiva con tecnología de IA de NVIDIA supervisan continuamente miles de puntos de datos en todo el hardware y el software para predecir el estado general e interceptar fuentes de tiempo de inactividad e ineficiencia. Esto genera una resiliencia inteligente que ahorra tiempo, energía y costes informáticos.
El motor RAS de NVIDIA ofrece información de diagnóstico detallada que puede identificar áreas preocupantes y planificar el mantenimiento. El motor RAS reduce el tiempo de respuesta al localizar rápidamente el origen de los problemas y minimiza el tiempo de inactividad al facilitar una remediación efectiva.
Más información sobre la arquitectura que impulsa la nueva era de la IA generativa y la computación acelerada.