Portare la nuova era del computing in ogni data center.
La piattaforma NVIDIA GB200 NVL2 porta la nuova era del computing in ogni data center, garantendo prestazioni senza pari per l'inferenza su modelli linguistici di grandi dimensioni(LLM), la ricerca in database vettoriali e l'elaborazione dei dati con 2 GPU Blackwell e 2 CPU Grace. Grazie all'architettura scale-out a singolo nodo NVIDIA MGX™, il sistema vanta un design che consente una vasta gamma di configurazioni di sistemi e opzioni di rete per integrare facilmente il computing accelerato nell'infrastruttura del data center esistente.
In evidenza
Inferenza su Llama3 LLM: latenza token-to-token (TTL) = 50 millisecondi (ms) in tempo reale, latenza primo token (FTL) = 2s, lunghezza sequenza di input = 2.048, lunghezza sequenza di output = 128 output, 8x NVIDIA HGX™ H100 con raffreddamento ad aria vs. GB200 NVL2 a singolo nodo con raffreddamento ad aria, per confronto prestazioni GPU
Prestazioni di ricerca nel database vettorialenei flussi RAG utilizzando la memoria condivisa dalla CPU NVIDIA Grace e dalla GPU Blackwell. 1 x86, 1 GPU H100 e 1 GPU dal nodo GB200 NVL2.
Elaborazione dati: carico di lavoro di aggregazione e unione nel database con compressione Snappy/Deflate derivata da query TPC-H Q4. Implementazione di query personalizzate per x86, H100 singola GPU e singola GPU da nodo GB200 NVL2: GB200 vs. Intel Xeon 8480+
Prestazioni previste soggette a modifica.
Caratteristiche
L'architettura NVIDIA Blackwell offre progressi all'avanguardia nel computing accelerato, favorendo la nuova era del computing con prestazioni, efficienza e scalabilità senza pari.
La CPU NVIDIA Grace è un processore all'avanguardia progettato per i data center moderni che eseguono applicazioni IA, cloud e calcolo ad alte prestazioni (HPC). Offre prestazioni e larghezza di banda di memoria eccezionali con un'efficienza energetica 2 volte superiore rispetto ai principali processori server di oggi.
NVIDIA NVLink-C2C interconnette in modo coerente ogni CPU Grace e GPU Blackwell a 900 GB/s. GB200 NVL2 usa NVLink-C2C e NVLink di quinta generazione per fornire un modello di memoria coerente da 1,4 TB per l'IA accelerata.
Il Key Value (KV) Caching migliora la velocità di risposta del modello LLM archiviando il contesto e la cronologia delle conversazioni. GB200 NVL2 ottimizza il KV Caching con una memoria completamente coerente tra GPU Grace e Blackwell GPU connessa tramite NVLink-C2C, con una velocità 7 volte superiore rispetto a PCIe, consentendo agli LLM di prevedere le parole più velocemente rispetto alle implementazioni GPU basate su x86.
La capacità di sfruttare tutto il potenziale del calcolo exascale e dei modelli IA da miliardi di parametri richiede una comunicazione rapida e fluida tra tutte le GPU all'interno di un cluster di server. NVLink di quinta generazione è un'interconnessione scale-up che libera prestazioni accelerate per modelli IA con parametri nell'ordine di grandezza dei miliardi di miliardi.
La rete del data center svolge un ruolo cruciale nel favorire i progressi e le prestazioni IA, fungendo da spina dorsale per il training dei modelli IA distribuiti e le prestazioni di IA generativa. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet e le DPU NVIDIA BlueField®-3 consentono una scalabilità efficiente su migliaia di GPU Blackwell per prestazioni applicative ottimali.
Specifiche
Configurazioni | 2 CPU Grace, 2 GPU Blackwell |
FP4 Tensor Core² | 40 PFLOPS |
FP8/FP6 Tensor Core² | 20 PFLOPS |
INT8 Tensor Core² | 20 POPS |
FP16/BF16 Tensor Core² | 10 PFLOPS |
TF32 Tensor Core² | 5 TFLOPS |
FP32 | 180 TFLOPS |
FP64/FP64 Tensor Core | 90 TFLOPS |
Memoria della GPU | Larghezza di banda | Fino a 384 GB | 16 TB/s |
Numero di core CPU | 144 core Arm® Neoverse V2 |
Memoria LPDDR5X | Larghezza di banda | Fino a 960 GB | Fino a 1.024 GB/s |
Interconnessione | NVLink: 1.8 TB/s NVLink-C2C: 2x 900 GB/s PCIe Gen6: 2x 256 GB/s |
Opzioni server | Varie opzioni di configurazione di NVIDIA GB200 NVL2 con NVIDIA MGX |
1 Specifiche preliminari. Dati possibilmente soggetti a modifica. |
NVIDIA GB200 NVL72 collega 36 Superchip GB200 in un design rack-scale. Il sistema GB200 NVL72 è una soluzione rack-scale con raffreddamento a liquido con un dominio NVLink a 72 GPU che funge da enorme GPU singola.
Inizia
Iscriviti per sapere quando NVIDIA Blackwell sarà disponibile.