Arquitectura NVIDIA Blackwell

El motor de la nueva revolución industrial, ahora en plena producción.

Rompiendo Barreras en la IA Generativa y la Computación Acelerada

Explore los avances innovadores que la arquitectura NVIDIA Blackwell aporta a la IA generativa y la computación acelerada. Basándose en generaciones de tecnologías NVIDIA, Blackwell define el próximo capítulo en IA generativa con rendimiento, eficiencia y escala incomparables. 

Mire Dentro de los Avances Tecnológicos

Una Nueva Clase de Superchip de IA

Las GPU de arquitectura Blackwell contienen 208 mil millones de transistores y se fabrican mediante un proceso TSMC 4NP personalizado. Todos los productos Blackwell cuentan con dos matrices con retícula limitada conectadas por una interconexión de chip a chip de 10 terabytes por segundo (TB/s) en una única GPU unificada.

Transformer Engine de Segunda Generación

El Transformer Engine de segunda generación utiliza la tecnología Blackwell Tensor Core personalizada combinada con las innovaciones NVIDIA® TensorRT™LLM y Framework NeMo™ para acelerar la inferencia y el entrenamiento para grandes modelos de lenguajes (LLM) y modelos de mezcla de expertos (MoE).

Para potenciar la inferencia de los modelos MoE, Blackwell Tensor Cores agrega nuevas precisiones, incluidos nuevos formatos de microescala definidos por la comunidad, lo que brinda alta precisión y facilidad de reemplazo para precisiones mayores. Transformer Engine de Blackwell utiliza técnicas de escalado de grano fino llamadas escalado de microtensor, para optimizar el rendimiento y la precisión, permitiendo la IA de punto flotante de 4 bits (FP4). Esto duplica el rendimiento y el tamaño de los modelos de próxima generación que la memoria puede admitir manteniendo una alta precisión.

IA Segura

Blackwell incluye la Computación Confidencial de NVIDIA, que protege los datos confidenciales y los modelos de IA del acceso no autorizado con una sólida seguridad basada en hardware. Blackwell es la primera GPU compatible con TEE-I/O del sector y, al mismo tiempo, proporciona la solución de computación confidencial de mayor rendimiento con hosts compatibles con TEE-I/O y protección en línea a través de NVIDIA® NVLink®. La Computación Confidencial de Blackwell ofrece un rendimiento de rendimiento casi idéntico en comparación con los modos no cifrados. Las empresas ahora pueden proteger incluso los modelos más grandes de manera eficiente, además de proteger la propiedad intelectual (PI) de la IA y permitir de forma segura el entrenamiento, la inferencia y el aprendizaje federado confidenciales de la IA.

NVLink y Switch NVLink

Liberar todo el potencial de la computación a exaescala y los modelos de IA de billones de parámetros depende de la necesidad de una comunicación rápida y fluida entre cada GPU dentro de un clúster de servidores. La quinta generación de NVIDIA® NVLink ® es una interconexión ampliada que libera un rendimiento acelerado para modelos de IA con parámetros de billones y multimillonarios.

La cuarta generación de NVIDIA NVSwitch ™ permite 130TB/s de ancho de banda de GPU en un dominio NVLink de 72 GPU (NVL72) y ofrece 4 veces la eficiencia del ancho de banda con compatibilidad con NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ FP8. Al utilizar NVSwitch , el sistema de switch NVIDIA NVLink admite clústeres más allá de un único servidor con la misma impresionante interconexión de 1,8TB/s. Los clústeres de servidores múltiples con NVLink escalan las comunicaciones de GPU en equilibrio con el aumento de la computación, por lo que NVL72 puede admitir 9 veces el rendimiento de GPU que un solo sistema de ocho GPU.

Motor de Descompresión

Los workflows de bases de datos y análisis de datos tradicionalmente han dependido de las CPU para la computación. La ciencia de datos acelerada puede aumentar significativamente el rendimiento de los análisis de un extremo a otro, acelerando la generación de valor y reduciendo los costos. Las bases de datos, incluido Apache Spark, desempeñan funciones fundamentales en el manejo, procesamiento y análisis de grandes volúmenes de datos para el análisis de datos.

El motor de descompresión de Blackwell y la capacidad de acceder a cantidades masivas de memoria en la CPU NVIDIA Grace™ a través de un enlace de alta velocidad (900 gigabytes por segundo (GB/s) de ancho de banda bidireccional) aceleran todo el proceso de consultas de bases de datos para obtener el mayor rendimiento de datos. análisis y ciencia de datos con soporte para los últimos formatos de compresión como LZ4, Snappy y Deflate.

Motor de Confiabilidad, Disponibilidad y Capacidad de Servicio (RAS)

Blackwell agrega resiliencia inteligente con un motor de confiabilidad, disponibilidad y capacidad de servicio (RAS) dedicado para identificar fallas potenciales que pueden ocurrir desde el principio para minimizar el tiempo de inactividad. Las capacidades de gestión predictiva impulsadas por IA de NVIDIA monitorean continuamente miles de puntos de datos en hardware y software para verificar el estado general y predecir e interceptar fuentes de tiempo de inactividad e ineficiencia. Esto genera una resiliencia inteligente que ahorra tiempo, energía y costos de computación.

El motor RAS de NVIDIA proporciona información de diagnóstico detallada que puede identificar áreas de preocupación y planificar el mantenimiento. El motor RAS reduce el tiempo de respuesta al localizar rápidamente el origen de los problemas y minimiza el tiempo de inactividad al facilitar una solución eficaz.

Desbloquee Modelos de Billones de Parámetros en Tiempo Real con NVIDIA GB200 NVL72

El NVIDIA GB200 NVL72 conecta 36 Superchips Grace Blackwell GB200 con 36 CPU Grace y 72 GPU Blackwell en un diseño a escala de rack. El GB200 NVL72 es una solución refrigerada por líquido con un dominio NVLink de 72 GPU que actúa como una única GPU masiva y ofrece una inferencia en tiempo real 30 veces más rápida para modelos de lenguaje de gran tamaño con billones de parámetros.

Resumen Técnico de NVIDIA Blackwell

Obtenga más información sobre la arquitectura que está impulsando la nueva era de la IA generativa y la computación acelerada.