NVIDIA GB200 NVL2

Llevamos la nueva era de la computación a todos los centros de datos.

Rendimiento incomparable con un único servidor

La plataforma NVIDIA GB200 NVL2 lleva la nueva era de la computación a todos los centros de datos, ofreciendo un rendimiento sin precedentes para la inferencia de modelos de lenguaje de gran tamaño (LLM) convencionales, búsqueda de bases de datos vectoriales y procesamiento de datos a través de 2 GPU Blackwell y 2 CPU Grace. Gracias a su arquitectura NVIDIA MGX™ ultraeficiente de un solonodo, su diseño permite una amplia variedad de configuraciones de sistemas y opciones de redes para facilitar la integración de la computación acelerada en la infraestructura de centro de datos existente.

La industria informática se une a NVIDIA para construir fábricas y centros de datos de IA para la próxima revolución industrial

En Computex 2024, los principales fabricantes de ordenadores del mundo se unieron a NVIDIA para presentar los últimos sistemas con tecnología NVIDIA Blackwell, incluido el GB200 NVL2, para liderar la próxima revolución industrial.

Nota de prensa

Aspectos destacados

Aceleración de la computación acelerada

Inferencia Llama 3

5Xfrente a GPU NVIDIA H100 Tensor Core

Búsqueda de bases de datos vectoriales

9X frente a H100

Procesamiento de datos

18X frente a CPU

Inferencia de LLM Llama3: latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, latencia del primer token (FTL) = 2 s, longitud de la secuencia de entrada = 2048, longitud de la secuencia de salida = salida de 128, 8 NVIDIA HGX™ H100 refrigeradas por aire frente a GB200 NVL2 refrigeradas por aire de un solo nodo, comparación de rendimiento por GPU
Rendimiento de búsqueda de bases de datos vectoriales dentro de la canalización RAG utilizando memoria compartida por CPU NVIDIA Grace y GPU Blackwell. 1x x86, 1 GPU H100 y 1x GPU del nodo GB200 NVL2.
Procesamiento de datos: una carga de trabajo de agregación y unión a bases de datos con compresión Snappy/Deflate derivada de la consulta TPC-H Q4. Implementaciones de consulta personalizadas para una sola GPU x86, H100 y una sola GPU del nodo GB200 NLV2: GB200 frente a Intel Xeon 8480+
Rendimiento previsto sujeto a cambios.

Gráfico de rendimiento de la inferencia de LLM en tiempo real

GB200 NVL2 introduce una memoria masiva y coherente de hasta 1,3 terabytes (TB) compartida entre dos CPU Grace y dos GPU Blackwell. Esta memoria compartida se combina con NVIDIA® NVLink™ de quinta generación y conexiones de alta velocidad de chip a chip (C2C) para ofrecer un rendimiento de inferencia de LLM 5 veces más rápido en tiempo real para modelos de lenguaje convencionales como Llama 3 70B.

Búsqueda de bases de datos vectoriales

GB200 NLV2 acelera hasta 9 veces la operación de búsqueda vectorial RAG. La base de datos vectorial del conjunto de datos de Wikipedia tiene más de 200 gigabytes (GB) y el acceso a los 960 GB de memoria de la CPU Grace y a los 900 GB/s del enlace C2C de alta velocidad acelera la búsqueda vectorial de baja latencia.

Procesamiento de datos

Las bases de datos desempeñan un papel fundamental en la gestión, el procesamiento y el análisis de grandes volúmenes de datos para las empresas. GB200 NVL2 aprovecha el rendimiento de memoria de alto ancho de banda, NVLink-C2C, y motores de descompresión dedicados en la arquitectura NVIDIA Blackwell para acelerar 18 veces las consultas de bases de datos clave en comparación con la CPU.

Características

Avances tecnológicos

Arquitectura Blackwell

La arquitectura NVIDIA Blackwell ofrece avances revolucionarios en computación acelerada e impulsa una nueva era de la computación con un rendimiento, eficiencia y escala sin precedentes.

Más información Acerca de Blackwell

CPU NVIDIA Grace

CPU NVIDIA Grace es un procesador revolucionario diseñado para centros de datos modernos que ejecutan aplicaciones de IA, en la nube y computación de alto rendimiento (HPC). Ofrece un rendimiento y un ancho de banda de memoria extraordinarios con una eficiencia energética 2 veces superior a la de los principales procesadores de servidores actuales.

Más información sobre Grace CPU Superchip

NVIDIA NVLINK-C2C

NVIDIA NVLink-C2C interconecta coherentemente cada CPU Grace y GPU Blackwell a 900 GB/s. GB200 NVL2 utiliza NVLink-C2C y la quinta generación de NVLink para ofrecer un modelo de memoria coherente de 1,4 TB para una IA acelerada.

Explorar NVLink-C2C

Almacenamiento en caché de valores clave (KV)

El almacenamiento en caché de valores clave (KV) mejora las velocidades de respuesta de LLM al almacenar el contexto y el historial de las conversaciones. GB200 NVL2 optimiza el almacenamiento en caché de valores clave mediante su GPU Grace totalmente coherente y la memoria GPU Blackwell conectada a través de NVLink-C2C, 7 veces más rápida que PCIe, lo que permite a los LLM predecir palabras más rápido que las implementaciones de GPU basadas en x86.

Más información sobre el almacenamiento en caché de valores clave

NVIDIA NVLink de quinta generación

Para liberar todo el potencial de la computación de exaescala y los modelos de IA de billones de parámetros se necesita una comunicación rápida y fluida entre todas las GPU de un clúster de servidores. La quinta generación de NVLink es una interconexión a escala vertical que libera un rendimiento acelerado para modelos de IA de varios billones de parámetros.

Más información sobre NVLink y NVLink Switch

NVIDIA Networking

La red del centro de datos desempeña un papel crucial a la hora de impulsar los avances y el rendimiento de la IA, ya que sirve de base para el entrenamiento distribuido de modelos de IA y el rendimiento de la IA generativa. Las DPU NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet y NVIDIA BlueField®-3 permiten una escalabilidad eficiente a través de cientos y miles de GPU Blackwell para un rendimiento óptimo de las aplicaciones.

Explorar soluciones de red integrales

Especificaciones

Especificaciones de GB200 NVL2¹

Configuración	2 CPU Grace, 2 GPU Blackwell
Tensor Core de FP4²	40 PFLOPS
Tensor Core de FP8/FP6²	20 PFLOPS
Tensor Core de INT8²	20 POPS
Tensor Core de FP16/BF16²	10 PFLOPS
Tensor Core de TF32²	5 PFLOPS
FP32	180 TFLOPS
Tensor Core de FP64/FP64	90 TFLOPS
Memoria GPU \| Ancho de banda	Hasta 384 GB \| 16 TB/s
Recuento de núcleos de CPU	144 núcleos Arm® Neoverse V2
Memoria LPDDR5X \| Ancho de banda	Hasta 960 GB \| Hasta 1024 GB/s
Interconexión	NVLink: 1,8 TB/s NVLink-C2C: 2 a 900 GB/s PCIe Gen6: 2 a 256 GB/s
Opciones del servidor	Varias opciones de configuración de NVIDIA GB200 NVL2 con NVIDIA MGX
¹ Especificaciones preliminares. Puede estar sujeto a cambios. ² Con dispersión.

NVIDIA GB200 NVL72

La NVIDIA GB200 NVL72 conecta 36 GB200 Superchips en un diseño a escala de bastidor. GB200 NVL72 es una solución a escala de bastidor con refrigeración por líquido que cuenta con un dominio NVLink de 72 GPU que actúa como una única GPU masiva.

Más información

Primeros pasos

Mantenerse al día

Regístrese para saber cuándo estará disponible NVIDIA Blackwell.

Recibir notificación