NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

Impulsionando a nova era da IA generativa.

Desbloqueando Modelos de Trilhões de Parâmetros em Tempo Real

A GB200 NVL72 conecta 36 CPUs Grace e 72 GPUs Blackwell em um design em escala de rack. A GB200 NVL72 é uma solução em escala de rack com refrigeração líquida que possui um domínio NVLink de 72 GPUs que atua como uma única GPU massiva e oferece tempo real 30 vezes mais rápido para inferência LLM de trilhões de parâmetros.

O Superchip GB200 Grace Blackwell é um componente chave do NVIDIA GB200 NVL72, conectando duas GPUs NVIDIA Blackwell Tensor Core de alto desempenho e uma CPU NVIDIA Grace usando a interconexão NVIDIA® NVLink®-C2C às duas GPUs Blackwell.

A Arquitetura em Escala de Rack da Blackwell para Inferência e Treinamento de Trilhões de Parâmetros em Tempo Real

O NVIDIA GB200 NVL72 é um computador exascala em um único rack. Com 36 GB200s interconectados pelo maior domínio NVIDIA® NVLink® já oferecido, o Sistema de Switch NVLink fornece 130 terabytes por segundo (TB/s) de comunicações de GPU de baixa latência para cargas de trabalho de IA e computação de alto desempenho (HPC).

Destaques

Impulsionando a IA de Próxima Geração e a Computação Acelerada

Inferência LLM

30X

Treinamento LLM

4X

Eficiência Energética

25X

Processamento de Dados

18X

Inferência LLM e eficiência energética: TTL = 50 milissegundos (ms) em tempo real, FTL = 5s, 32.000 entradas/1.000 saídas, NVIDIA HGX™ H100 escalonado sobre InfiniBand (IB) vs. GB200 NVL72, treinamento 1,8T MOE HGX H100 escalonado sobre IB vs. GB200 NVL72 dimensionado sobre IB. Tamanho do cluster: 30.000
Consulta TPC-H 4: GB200 vs. Intel Xeon 8480+
Desempenho projetado sujeito a alterações.

Inferência LLM em Tempo Real

GB200 NVL72 apresenta recursos de ponta e um Transformer Engine de segunda geração que permite IA FP4 e, quando acoplado ao NVIDIA NVLink de quinta geração, oferece desempenho de inferência LLM em tempo real 30 vezes mais rápido para modelos de linguagem de trilhões de parâmetros. Esse avanço é possível com uma nova geração de Tensor Cores, que introduz novos formatos de microescala, proporcionando alta precisão e maior rendimento. Além disso, o GB200 NVL72 usa NVLink e refrigeração líquida para criar um único rack massivo de 72 GPU que pode superar gargalos de comunicação.

Treinamento em Grande Escala

O GB200 inclui um Transformer Engine mais rápido com precisão FP8, permitindo um treinamento notável 4 vezes mais rápido para grandes modelos de linguagem em escala. Essa inovação é complementada pelo NVLink de quinta geração, que fornece 1,8 terabytes por segundo (TB/s) de interconexão GPU a GPU, rede InfiniBand e software NVIDIA Magnum IO™.

Infraestrutura com Eficiência Energética

Os racks GB200 NVL72 com refrigeração líquida reduzem a pegada de carbono e o consumo de energia de um data center. O resfriamento líquido aumenta a densidade computacional, reduz a quantidade de espaço usado e facilita a comunicação de GPU de alta largura de banda e baixa latência com grandes arquiteturas de domínio NVLink. Em comparação com a infraestrutura refrigerada a ar NVIDIA H100, o GB200 oferece 25 vezes mais desempenho com a mesma potência, ao mesmo tempo que reduz o consumo de água.

Processamento de Dados

Os bancos de dados desempenham funções críticas no manuseio, processamento e análise de grandes volumes de dados para empresas. O GB200 aproveita o desempenho da memória de alta largura de banda, NVLink-C2C e mecanismos de descompressão dedicados na arquitetura NVIDIA Blackwell para acelerar as principais consultas ao banco de dados em 18 vezes em comparação com a CPU e fornecer um TCO 5 vezes melhor.

Características

Avanços Tecnológicos

Arquitetura Blackwell

A arquitetura NVIDIA Blackwell oferece avanços inovadores em computação acelerada, definindo a nova era da computação com desempenho, eficiência e escala incomparáveis.

CPU NVIDIA Grace

O Superchip NVIDIA Grace CPU é um processador inovador projetado para data centers modernos que executam aplicações de IA, nuvem e computação de alto desempenho (HPC). Ele fornece excelente desempenho e largura de banda de memória com o dobro da eficiência energética dos principais processadores de servidor atuais.

NVIDIA NVLink de Quinta Geração

Desbloquear todo o potencial da computação em exaescala e dos modelos de IA de trilhões de parâmetros requer uma comunicação rápida e contínua entre cada GPU em um cluster de servidores. A quinta geração do NVLink é uma interconexão escalável que libera desempenho acelerado para modelos de IA com trilhões e multitrilhões de parâmetros.

Rede NVIDIA

A rede do data center desempenha um papel crucial na condução dos avanços e do desempenho da IA servindo como espinha dorsal para o treinamento de modelos de IA distribuídos e o desempenho da IA generativa. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum-X800 Ethernet e as DPUs NVIDIA BlueField-3 permitem escalabilidade eficiente em centenas e milhares de GPUs Blackwell para desempenho ideal de aplicações.

Especificações

Especificações GB200 NVL721

  GB200 NVL72 Superchip GB200 Grace Blackwell
Configuração 36 CPU Grace: GPUs 72 Blackwell 1 CPU Grace: 2 GPUs Blackwell
Núcleo Tensor FP42 1,440 PFLOPS 40 PFLOPS
Núcleo Tensor FP8/FP62 720 PFLOPS 20 PFLOPS
Núcleo Tensor INT82 720 POPS 20 POPS
FP16/BF16 Tensor Core2 360 PFLOPS 10 PFLOPS
TF32 Tensor Core 180 PFLOPS 5 PFLOPS
FP32 6,480 TFLOPS 180 TFLOPS
FP64 3,240 TFLOPS 90 TFLOPS
Núcleo Tensor FP64 3,240 TFLOPS 90 TFLOPS
Memória de GPU | Largura de Banda Até 13.5 TB HBM3e | 576 TB/s Até 384 GB HBM3e | 16 TB/s
Largura de Banda NVLink 130TB/s 3.6TB/s
Contagem de Núcleos de CPU 2,592 Arm® Neoverse V2 cores 72 Arm Neoverse V2 cores
Memória de CPU | Largura de Banda Até 17 TB LPDDR5X | Até 18.4 TB/s Até 480GB LPDDR5X | Até 512 GB/s

Começar

Mantenha-se Atualizado

Inscreva-se para saber quando o NVIDIA Blackwell estiver disponível.