Wir läuten in jedem Rechenzentrum die nächste Computing-Epoche ein.
Die NVIDIA GB200 NVL2-Plattform läutet in den Rechenzentren dieser Welt eine neue Computing-Epoche ein. Sie bietet unübertroffene Inferenzleistung bei verbreiteten großen Sprachmodellen (LLM), Vektordatenbank-Suche sowie Datenverarbeitung überzweiBlackwell-GPUs und zwei Grace-CPUs. Durch seine skalierbare NVIDIA MGX™-Einzelknoten-Architekturermöglicht sein Design eine Vielzahl von Systemdesigns und Netzwerkoptionen, um beschleunigtes Computing nahtlos in die vorhandene Rechenzentrumsinfrastruktur zu integrieren.
Highlights
Llama3 LLM-Inferenz: Token-to-Token-Latenz (TTL) = 50 Millisekunden (ms) Echtzeit, First-Token-Latenz (FTL) = 2s, Eingabesequenzlänge = 2,048, Ausgabesequenzlänge = 128 Output, 8x NVIDIA HGX™ H100 Air gekühlt vs. GB200 NVL2, luftgekühlter Einzelknoten, pro–Grafikkarten-Leistungsvergleich
Suchleistung in Vektordatenbankeninnerhalb der RAG-Pipeline unter Verwendung des Speichers, der von der NVIDIA-Grace-CPU und der Blackwell-GPU gemeinsam genutzt wird. 1x x86, 1x H100-Grafikkarte und 1x Grafikkarte von GB200 NVL2-Knoten. Datenverarbeitung: Ein Datenbank-Join- und -Aggregation-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einer einzelnen Grafikkarte und für eine einzelne Grafikkarte aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.
Merkmale
Die NVIDIA Blackwell-Architektur führt die neue Ära im Bereich Computing an und bietet bahnbrechende Fortschritte beim beschleunigten Computing mit beispielloser Leistung, Effizienz und Skalierbarkeit.
Der NVIDIA Grace-CPU ist ein bahnbrechender Prozessor, der für moderne Rechenzentren mit KI-, Cloud- und High-Performance-Computing-Anwendungen (HPC) entwickelt wurde. Er bietet herausragende Leistung und Speicherbandbreite mit der zweifachen Energieeffizienz im Vergleich mit führenden modernen Serverprozessoren.
NVIDIA NVLink-C2C verbindet alle Grace-CPUs und Blackwell-Grafikkarten mit 900 GB/s kohärent miteinander. Der GB200 NVL2 verwendet sowohl NVLink-C2C als auch NVLink der fünften Generation, um ein kohärentes 1,4-TB-Speichermodell für beschleunigte KI bereitzustellen.
Key-Value-Caching verbessert die LLM-Reaktionsgeschwindigkeit, indem der Konversationskontext und -verlauf gespeichert wird. Der GB200 NVL2 optimiert das KV-Caching durch seinen vollständig kohärenten Speicher der Grace-GPU und der Blackwell-GPU, die über NVLink-C2C miteinander verbunden sind und 7-mal schneller als PCIe sind. Dadurch können LLMs Wörter schneller vorhersagen als x86-basierte GPU-Implementierungen.
Um das volle Potenzial von Exascale-Computing und KI-Modellen mit Billionen Parametern auszuschöpfen, ist eine schnelle, nahtlose Kommunikation zwischen allen Grafikkarten innerhalb eines Server-Clusters erforderlich. Die fünfte Generation von NVLink ist eine Scale-up-Verbindung, die beschleunigte Leistung für KI-Modelle mit Billionen oder mehreren Billionen Parametern bietet.
Das Netzwerk des Rechenzentrums spielt eine entscheidende Rolle, um Fortschritte und Leistung der KI voranzutreiben, und dient als Basis für verteiltes KI-Modelltraining und generative KI. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800-Ethernet und NVIDIA BlueField®-3- DPUs ermöglichen effiziente Skalierbarkeit über Hunderte oder Tausende Blackwell-Grafikkarten für eine optimale Anwendungsleistung.
Technische Daten
Konfiguration | 2x Grace-CPUs, 2x Blackwell-GPUs |
FP4 Tensor-Recheneinheit² | 40 PFLOPS |
FP8/FP6 Tensor-Recheneinheit² | 20 PFLOPS |
INT8-Tensor-Recheneinheit² | 20 POPS |
FP16/BF16 Tensor-Recheneinheit² | 10 PFLOPS |
TF32 Tensor-Recheneinheit² | 5 PFLOPS |
FP32 | 180 TFLOPS |
FP64/FP64 Tensor-Core | 90 TFLOPS |
Grafikkartenspeicher | Bandbreite | Bis zu 384 GB | 16 TB/s |
Anzahl der CPU-Recheneinheiten | 144 Arm® Neoverse V2-Recheneinheiten |
LPDDR5X-Speicher | Bandbreite | Bis zu 960 GB | Bis zu 1.024 GB/s |
Konnektivität | NVLink: 1,8 TB/s NVLink-C2C: 2x 900 GB/s PCIe Gen 6: 2x 256 GB/s |
Serveroptionen | Verschiedene Konfigurationsoptionen für NVIDIA GB200 NVL2 mit NVIDIA MGX |
1 Vorläufige Spezifikationen. Änderungen vorbehalten. |
NVIDIA GB200 NVL72 verbindet 36 GB200-Superchips im Rack-Maßstab. GB200 NVL72 ist eine Rack-Lösung mit Flüssigkeitskühlung und einer NVLink-Domäne mit 72 Grafikkarten, die als einzelne, massive Grafikkarte funktioniert.
Erste Schritte
Melden Sie sich an, um benachrichtigt zu werden, wenn NVIDIA Blackwell verfügbar wird.