NVIDIA GB200 NVL2

Portare la nuova era del computing in ogni data center.

Introduzione

Prestazioni per singolo server senza pari

La piattaforma NVIDIA GB200 NVL2 porta la nuova era del computing in ogni data center, garantendo prestazioni senza pari per l'inferenza su modelli linguistici di grandi dimensioni(LLM), la ricerca in database vettoriali e l'elaborazione dei dati con 2 GPU Blackwell e 2 CPU Grace. Grazie all'architettura scale-out a singolo nodo NVIDIA MGX™, il sistema vanta un design che consente una vasta gamma di configurazioni di sistemi e opzioni di rete per integrare facilmente il computing accelerato nell'infrastruttura del data center esistente.

L'industria informatica si unisce a NVIDIA per costruire fabbriche IA e data center per la prossima rivoluzione industriale

Al Computex 2024, i principali produttori di computer del mondo si sono uniti a NVIDIA per svelare gli ultimi sistemi basati su NVIDIA Blackwell, tra cui GB200 NVL2, per guidare la prossima rivoluzione industriale.

Comunicato stampa

In evidenza

La potenza del computing accelerato

Inferenza su Llama 3

X5rispetto alla GPU NVIDIA H100 Tensor Core

Ricerca in database vettoriali

X9 rispetto alla H100

Elaborazione dati

18X rispetto alla CPU

Inferenza su Llama3 LLM: latenza token-to-token (TTL) = 50 millisecondi (ms) in tempo reale, latenza primo token (FTL) = 2s, lunghezza sequenza di input = 2.048, lunghezza sequenza di output = 128 output, 8x NVIDIA HGX™ H100 con raffreddamento ad aria vs. GB200 NVL2 a singolo nodo con raffreddamento ad aria, per confronto prestazioni GPU
Prestazioni di ricerca nel database vettorialenei flussi RAG utilizzando la memoria condivisa dalla CPU NVIDIA Grace e dalla GPU Blackwell. 1 x86, 1 GPU H100 e 1 GPU dal nodo GB200 NVL2.
Elaborazione dati: carico di lavoro di aggregazione e unione nel database con compressione Snappy/Deflate derivata da query TPC-H Q4. Implementazione di query personalizzate per x86, H100 singola GPU e singola GPU da nodo GB200 NVL2: GB200 vs. Intel Xeon 8480+
Prestazioni previste soggette a modifica.

Grafico delle prestazioni di inferenza LLM in tempo reale

Inferenza su LLM mainstream in tempo reale

GB200 NVL2 introduce un'enorme memoria coerente fino a 1,3 terabyte (TB) condivisa tra due CPU Grace e due GPU Blackwell. Questa memoria condivisa è abbinata a NVIDIA® NVLink™ di quinta generazione e alle connessioni chip-to-chip (C2C) ad alta velocità per fornire prestazioni di inferenza su LLM in tempo reale 5 volte più veloci per modelli linguistici mainstream come Llama 3 70B.

Ricerca in database vettoriali

GB200 NLV2 accelera le operazioni di ricerca vettoriale RAG fino a 9 volte. Il database vettoriale del set di dati di Wikipedia supera i 200 gigabyte (GB) e l'accesso ai 960 GB di memoria della CPU Grace e al link C2C ad alta velocità da 900 GB/s potenzia la ricerca vettoriale a bassa latenza.

Grafico delle prestazioni di efficienza energetica dell'infrastruttura

Elaborazione dei dati

I database, ricoprono ruoli critici nella gestione, nell'elaborazione e nell'analisi di grandi volumi di dati per le imprese. GB200 NVL2 sfrutta le prestazioni della memoria a banda elevata, NVLink-C2C e motori di decompressione dedicati dell'architettura NVIDIA Blackwell per accelerare le principali query del database di 18 volte rispetto alla CPU

Caratteristiche

Innovazioni tecnologiche

Architettura Blackwell

L'architettura NVIDIA Blackwell offre progressi all'avanguardia nel computing accelerato, favorendo la nuova era del computing con prestazioni, efficienza e scalabilità senza pari.

Scopri di più su Blackwell

CPU NVIDIA Grace

La CPU NVIDIA Grace è un processore all'avanguardia progettato per i data center moderni che eseguono applicazioni IA, cloud e calcolo ad alte prestazioni (HPC). Offre prestazioni e larghezza di banda di memoria eccezionali con un'efficienza energetica 2 volte superiore rispetto ai principali processori server di oggi.

Scopri di più su Grace CPU Superchip

NVIDIA NVLINK-C2C

NVIDIA NVLink-C2C interconnette in modo coerente ogni CPU Grace e GPU Blackwell a 900 GB/s. GB200 NVL2 usa NVLink-C2C e NVLink di quinta generazione per fornire un modello di memoria coerente da 1,4 TB per l'IA accelerata.

Esplora NVLink-C2C

Key Value (KV) Caching

Il Key Value (KV) Caching migliora la velocità di risposta del modello LLM archiviando il contesto e la cronologia delle conversazioni. GB200 NVL2 ottimizza il KV Caching con una memoria completamente coerente tra GPU Grace e Blackwell GPU connessa tramite NVLink-C2C, con una velocità 7 volte superiore rispetto a PCIe, consentendo agli LLM di prevedere le parole più velocemente rispetto alle implementazioni GPU basate su x86.

Scopri di più sul Key Value Caching

NVIDIA NVLink di quinta generazione

La capacità di sfruttare tutto il potenziale del calcolo exascale e dei modelli IA da miliardi di parametri richiede una comunicazione rapida e fluida tra tutte le GPU all'interno di un cluster di server. NVLink di quinta generazione è un'interconnessione scale-up che libera prestazioni accelerate per modelli IA con parametri nell'ordine di grandezza dei miliardi di miliardi.

Scopri di più su NVLink e NVLink Switch

NVIDIA Networking

La rete del data center svolge un ruolo cruciale nel favorire i progressi e le prestazioni IA, fungendo da spina dorsale per il training dei modelli IA distribuiti e le prestazioni di IA generativa. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet e le DPU NVIDIA BlueField®-3 consentono una scalabilità efficiente su migliaia di GPU Blackwell per prestazioni applicative ottimali.

Esplora le soluzioni di networking complete

Specifiche

Specifiche di GB200 NVL2 ¹

Configurazioni	2 CPU Grace, 2 GPU Blackwell
FP4 Tensor Core²	40 PFLOPS
FP8/FP6 Tensor Core²	20 PFLOPS
INT8 Tensor Core²	20 POPS
FP16/BF16 Tensor Core²	10 PFLOPS
TF32 Tensor Core²	5 TFLOPS
FP32	180 TFLOPS
FP64/FP64 Tensor Core	90 TFLOPS
Memoria della GPU \| Larghezza di banda	Fino a 384 GB \| 16 TB/s
Numero di core CPU	144 core Arm® Neoverse V2
Memoria LPDDR5X \| Larghezza di banda	Fino a 960 GB \| Fino a 1.024 GB/s
Interconnessione	NVLink: 1.8 TB/s NVLink-C2C: 2x 900 GB/s PCIe Gen6: 2x 256 GB/s
Opzioni server	Varie opzioni di configurazione di NVIDIA GB200 NVL2 con NVIDIA MGX
¹ Specifiche preliminari. Dati possibilmente soggetti a modifica. ² Con densità.

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72 collega 36 Superchip GB200 in un design rack-scale. Il sistema GB200 NVL72 è una soluzione rack-scale con raffreddamento a liquido con un dominio NVLink a 72 GPU che funge da enorme GPU singola.

Scopri di più

Inizia

Resta aggiornato

Iscriviti per sapere quando NVIDIA Blackwell sarà disponibile.

Avvisami