NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

Antrieb für das neue Zeitalter des intelligenten Edge-Computings.

Erschließung von Echtzeitmodellen mit Billionen Parametern

Der GB200 NVL72 verbindet 36 Grace-CPUs und 72 Blackwell-GPUs in einem Rack-Maßstab. Bei dem GB200 NVL72 handelt es sich um eine Rack-Lösung mit Flüssigkeitskühlung und einer NVLink-Domäne mit 72 Grafikprozessoren, die als einzelner riesiger Grafikprozessor funktioniert und 30-mal schnellere Echtzeit-Inferenz für LLMs mit Billionen Parametern bietet.

Der GB200 Grace Blackwell Superchip ist eine Schlüsselkomponente des NVIDIA GB200 NVL72 und verbindet zwei hochleistungsfähige NVIDIA Blackwell Tensor-Recheneinheiten-Grafikprozessoren und eine NVIDIA Grace-CPU über die NVIDIA® NVLink®-C2C-Verbindung mit den beiden Blackwell-GPUs.

Die Blackwell-Architektur im Rack-Maßstab für Echtzeit-Inferenz und Training mit Billionen Parametern

NVIDIA GB200 NVL72 ist ein Exascale-Computer in einem einzigen Rack. Mit 36 GB200s, die über die größte NVIDIA® NVLink®-Domäne miteinander verbunden sind, bietet das NVLink-Switch-System 130 Terabyte pro Sekunde (TB/s) GPU-Kommunikation mit geringer Latenz für KI- und High-Performance-Computing(HPC)-Workloads.

Highlights

Optimierung für KI und beschleunigtes Computing der nächsten Generation

LLM-Inferenz

30X

LLM-Training

4X

Energieeffizienz

25X

Datenverarbeitung

18X

LLM-Inferenz und Energieeffizienz: TTL = 50 Millisekunden (ms) Echtzeit, FTL = 5 s, 32.768 Eingang/1.024 Ausgang, NVIDIA HGX™ H100 skaliert über InfiniBand (IB) vs. GB200 NVL72, Training, 1,8T MOE 4096x HGX H100 skaliert über IB vs. 456x GB200 NVL72 skaliert über IB. Clustergröße: 32.768
Ein Datenbank-Join- und Aggregations-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einem einzelnen Grafikprozessor und für einen einzelnen Grafikprozessor aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.

Echtzeit-Inferenz für LLMs

GB200 bietet innovative Funktionen und eine Inferenz-Engine, die in Verbindung mit NVIDIA® NVLink der fünften Generation eine 30-mal schnellere LLM-Inferenzleistung in Echtzeit für Sprachmodelle mit mehreren Billionen Parametern bietet. Dieser Fortschritt wird durch eine neue Generation von Tensor Cores ermöglicht, die ein neues Niveau der FP4-Präzision mit Mikroskalierung einführen. Darüber hinaus nutzt der GB200 NVL72 NVLink und Flüssigkeitskühlung, um ein einzelnes massives Rack mit 72 Grafikprozessoren zu bilden, das Kommunikationsengpässe überwindet.

Training im massiven Maßstab

GB200 verfügt über eine schnellere Transformer-Engine mit FP8-Präzision, die 4-mal schnelleres Training für große Sprachmodelle im gewünschten Umfang ermöglicht. Dieser Durchbruch wird durch NVLink der fünften Generation ergänzt, die 1,8 Terabyte pro Sekunde (TB/s) GPU-zu-GPU-Verbindung, InfiniBand-Netzwerke und NVIDIA Magnum IO™-Software bietet

Energieeffiziente Infrastruktur

Die GB200 NVL72-Racks mit Flüssigkeitskühlung reduzieren die CO2-Bilanz und den Energieverbrauch von Rechenzentren. Die Flüssigkeitskühlung erhöht die Rechendichte, reduziert den Platzbedarf und ermöglicht GPU-Kommunikation mit hoher Bandbreite und geringer Latenz bei großen NVLink-Domänenarchitekturen. Im Vergleich zur H100-Infrastruktur mit Luftkühlung bietet der GB200 25-mal mehr Leistung bei gleichem Stromverbrauch und senkt gleichzeitig den Wasserverbrauch um mehr als das 13-Fache.

Datenverarbeitung

Datenbanken spielen für Unternehmen eine entscheidende Rolle bei der Verarbeitung und Analyse großer Datenmengen. GB200 nutzt NVLink-C2C mit hoher Bandbreite und dedizierte Dekomprimierungs-Engines in der NVIDIA Blackwell-Architektur, um wichtige Datenbankabfragen um das 18-Fache zu beschleunigen (verglichen mit CPUs), und so 5-mal bessere Gesamtbetriebskosten zu erzielen.

Merkmale

Technologische Durchbrüche

Blackwell-Architektur

Die NVIDIA Blackwell-Architektur definiert die neue Ära im Bereich generative KI und und bietet bahnbrechende Fortschritte beim beschleunigten Computing mit beispielloser Leistung, Effizienz und Skalierbarkeit.

NVIDIA Grace-CPU

Der NVIDIA-Grace-CPU-Superchip ist ein bahnbrechender Prozessor, der für moderne Rechenzentren mit KI-, Cloud- und HPC-Anwendungen entwickelt wurde. Er bietet herausragende Leistung und Speicherbandbreite mit der zweifachen Energieeffizienz im Vergleich mit führenden modernen Serverprozessoren.

NVIDIA NVLink der fünften Generation

Um das volle Potenzial von Exascale-Computing und KI-Modellen mit Billionen Parametern auszuschöpfen, ist eine schnelle, nahtlose Kommunikation zwischen allen Grafikprozessoren innerhalb eines Server-Clusters erforderlich. Die fünfte Generation von NVLink ist eine Scale-up-Verbindung, die beschleunigte Leistung für KI-Modelle mit Billionen oder mehreren Billionen Parametern bietet.

NVIDIA-Netzwerk

Das Netzwerk des Rechenzentrums spielt eine entscheidende Rolle, um Fortschritte und Leistung der KI voranzutreiben, und dient als Basis für verteiltes KI-Modelltraining und generative KI. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet und NVIDIA BlueField®-3 DPUs ermöglichen effiziente Skalierbarkeit über Hunderte oder Tausende Blackwell-GPUs hinweg für eine optimale Anwendungsleistung.

NVIDIA GB200 Grace Blackwell NVL4 Superchip

Mit dem NVIDIA GB200 Grace Blackwell NVL4 Superchip beginnt die Zukunft des konvergierten HPC und KI – mit einer revolutionären Leistung durch vier über NVIDIA NVLink™ verbundene Blackwell-GPUs, die mit zwei Grace-CPUs über NVLink-C2C verbunden sind.

Technische Daten

GB200 NVL721 Technische Daten

  GB200 NVL72 GB200 Grace Blackwell Superchip
Konfiguration 36 Grace-CPU: 72 Blackwell-Grafikprozessoren 1 Grace-CPU: 2 Blackwell-Grafikprozessor
FP4 Tensor-Recheneinheit2 1.440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor-Recheneinheit2 720 PFLOPS 20 PFLOPS
INT8-Tensor-Recheneinheit2 720 POPS 20 POPS
FP16/BF16 Tensor-Recheneinheit2 360 PFLOPS 10 PFLOPS
TF32 Tensor-Recheneinheit 180 PFLOPS 5 PFLOPS
FP32 6.480 TFLOPS 180 TFLOPS
FP64 3.240 TFLOPS 90 TFLOPS
FP64 Tensor-Recheneinheit 3.240 TFLOPS 90 TFLOPS
Grafikprozessorspeicher | Bandbreite Bis zu 13,5 TB HBM3e | 576 TB/s Bis zu 13,5 TB HBM3e | 576 TB/s
NVLink-Bandbreite 130 TB/s 3,6 TB/s
Anzahl der CPU-Recheneinheiten 2.592 Arm® Neoverse V2-Recheneinheiten 72 Arm® Neoverse V2-Recheneinheiten
CPU-Speicher | Bandbreite Bis zu 17 TB LPDDR5X | Bis zu 18,4 TB/s Bis zu 480 LPDDR5X | Bis zu 512 GB/s

Jetzt starten

Immer aktuell

Melden Sie sich an, um benachrichtigt zu werden, wenn NVIDIA Blackwell verfügbar wird.