Antrieb für das neue Zeitalter des intelligenten Edge-Computings.
Die GGB200 NVL72 verbindet 36 Grace-CPUs und 72 Blackwell-GPUs in einem flüssigkeitsgekühlten Design mit Rack-Skalierung. Sie verfügt über eine 72-GPU-NVLink-Domain, die wie eine einzige, massive GPU agiert und bei großen Sprachmodellen (LLMs) mit Billionen von Parametern eine 30-mal schnellere Echtzeit-Inferenz ermöglicht.
Der GB200 Grace Blackwell Superchip ist eine Schlüsselkomponente der NVIDIA GB200 NVL72. Er verbindet zwei leistungsstarke NVIDIA Blackwell Tensor Core-GPUs und eine NVIDIA Grace™-CPU über die NVIDIA NVLink™-C2C-Verbindung mit den beiden Blackwell-GPUs.
Highlights
LLM-Inferenz und Energieeffizienz: TTL = 50 Millisekunden (ms) Echtzeit, FTL = 5 s, 32.768 Eingang/1.024 Ausgang, NVIDIA HGX™ H100 skaliert über InfiniBand (IB) vs. GB200 NVL72, Training, 1,8T MOE 4096x HGX H100 skaliert über IB vs. 456x GB200 NVL72 skaliert über IB. Clustergröße: 32.768
Ein Datenbank-Join- und Aggregations-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einem einzelnen Grafikprozessor und für einen einzelnen Grafikprozessor aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.
Merkmale
Die NVIDIA GB300 NVL72 bietet 40-mal mehr KI-Inferenzleistung als Hopper-Plattformen, 40 TB schnellen Arbeitsspeicher und eine Integration der Netzwerkplattform mit NVIDIA ConnectX®-8 SuperNICs unter Einsatz von Quantum-X800 InfiniBand oder Spectrum™-X Ethernet. Blackwell Ultra sorgt für bahnbrechende Leistung bei den komplexesten Workloads – von agentenbasierten Systemen und Reasoning bis hin zu 30-mal schnellerer Echtzeit-Videogenerierung.
Technische Daten
GB200 NVL72 | GB200 Grace Blackwell Superchip | |
Konfiguration | 36 Grace-CPU: 72 Blackwell-Grafikprozessoren | 1 Grace-CPU: 2 Blackwell-Grafikprozessor |
FP4 Tensor-Recheneinheit1 | 1.440 PFLOPS | 40 PFLOPS |
FP8/FP6 Tensor-Recheneinheit1 | 720 PFLOPS | 20 PFLOPS |
INT8-Tensor-Recheneinheit1 | 720 POPS | 20 POPS |
FP16/BF16 Tensor-Recheneinheit1 | 360 PFLOPS | 10 PFLOPS |
TF32 Tensor-Recheneinheit | 180 PFLOPS | 5 PFLOPS |
FP32 | 5.760 TFLOPS | 160 TFLOPS |
FP64 | 2.880 TFLOPS | 80 TFLOPS |
FP64 Tensor-Recheneinheit | 2.880 TFLOPS | 80 TFLOPS |
Grafikprozessorspeicher | Bandbreite | Bis zu 13,4 TB HBM3e | 576 TB/s | Bis zu 372 GB HBM3e | 16 TB/s |
NVLink-Bandbreite | 130 TB/s | 3,6 TB/s |
Anzahl der CPU-Recheneinheiten | 2.592 Arm® Neoverse V2-Recheneinheiten | 72 Arm® Neoverse V2-Recheneinheiten |
CPU-Speicher | Bandbreite | Bis zu 17 TB LPDDR5X | Bis zu 18,4 TB/s | Bis zu 480 LPDDR5X | Bis zu 512 GB/s |
1. Mit geringer Datendichte. |