NVIDIA GB200 NVL2

NVIDIA GB200 NVL2

Wir läuten in jedem Rechenzentrum die nächste Computing-Epoche ein.

Unvergleichliche Leistung Für Einzelserver

Die NVIDIA GB200 NVL2-Plattform läutet in den Rechenzentren dieser Welt eine neue Computing-Epoche ein. Sie bietet unübertroffene Inferenzleistung bei verbreiteten großen Sprachmodellen (LLM), Vektordatenbank-Suche sowie Datenverarbeitung überzweiBlackwell-GPUs und zwei Grace-GPUs. Durch seine skalierbare NVIDIA MGX™-Einzelknoten-Architekturermöglicht sein Design eine Vielzahl von Systemdesigns und Netzwerkoptionen, um beschleunigtes Computing nahtlos in die vorhandene Rechenzentrumsinfrastruktur zu integrieren.

Die Computerbranche errichtet gemeinsam mit NVIDIA KI-Fabriken und Rechenzentren für die nächste industrielle Revolution

Auf der Computex 2024 stellten die weltweit führenden Computerhersteller gemeinsam mit NVIDIA die neuesten Systeme mit NVIDIA Blackwell vor, darunter das GB200 NVL2, das die nächste industrielle Revolution vorantreiben wird.

Highlights

Noch schnelleres beschleunigtes Computing

LLama3-Inferenz

X5

Vektordatenbank-Suche

X9

Datenverarbeitung

X18

Llama3 LLM-Inferenz: Token-to-Token-Latenz (TTL) = 50 Millisekunden (ms) Echtzeit, First-Token-Latenz (FTL) = 2s, Eingabesequenzlänge = 2,048, Ausgabesequenzlänge = 128 Output, 8x NVIDIA HGX™ H100 Air gekühlt vs. GB200 NVL2, luftgekühlter Einzelknoten, pro–Grafikkarten-Leistungsvergleich
Suchleistung in Vektordatenbankeninnerhalb der RAG-Pipeline unter Verwendung des Speichers, der von der NVIDIA-Grace-CPU und der Blackwell-GPU gemeinsam genutzt wird. 1x x86, 1x H100-Grafikkarte und 1x Grafikkarte von GB200 NVL2-Knoten. Datenverarbeitung: Ein Datenbank-Join- und -Aggregation-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einer einzelnen Grafikkarte und für eine einzelne Grafikkarte aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.

Echtzeit-Inferenz für Mainstream-LLMs

GB200 NVL2 führt einen massiven kohärenten Speicher mit bis zu 1,3 Terabyte (TB) ein, der von zwei Grace-CPUs und zwei Blackwell-GPUs gemeinsam genutzt wird. Dieser gemeinsam genutzte Speicher ist mit NVIDIA® NVLink™ der fünften Generation und Chip-to-Chip (C2C)-Hochgeschwindigkeitsverbindungen gekoppelt, um eine 5-mal schnellere LLM-Inferenzleistung in Echtzeit für gängige Sprachmodelle wie Llama 3 70B zu liefern.

Vektordatenbank-Suche

Der GB200 NLV2 beschleunigt die RAG-Vektorsuche um das bis zu 9-Fache. Die Vektordatenbank des Wikipedia-Datensatzes umfasst mehr als 200 Gigabyte (GB). Der Zugriff auf die 960 GB Speicher der Grace-CPU und die 900 GB/s schnelle C2C-Verbindung ermöglicht eine Beschleunigung der Vektorsuche mit geringer Latenz.

Datenverarbeitung

Datenbanken spielen für Unternehmen eine entscheidende Rolle bei der Verarbeitung und Analyse großer Datenmengen. GB200 NVL2 nutzt die Speicherleistung mit hoher Bandbreite, NVLink-C2C und dedizierte Dekompressions-Engines in der NVIDIA Blackwell-Architektur, um wichtige Datenbankabfragen um das 18-Fache zu beschleunigen (verglichen mit CPUs).

Merkmale

Technologische Durchbrüche

Blackwell-Architektur

Die NVIDIA Blackwell-Architektur führt die neue Ära im Bereich Computing an und bietet bahnbrechende Fortschritte beim beschleunigten Computing mit beispielloser Leistung, Effizienz und Skalierbarkeit.

NVIDIA Grace-CPU

Der NVIDIA Grace-CPU ist ein bahnbrechender Prozessor, der für moderne Rechenzentren mit KI-, Cloud- und High-Performance-Computing-Anwendungen (HPC) entwickelt wurde. Er bietet herausragende Leistung und Speicherbandbreite mit der zweifachen Energieeffizienz im Vergleich mit führenden modernen Serverprozessoren.

NVIDIA NVLINK-C2C

NVIDIA NVLink-C2C verbindet alle Grace-CPUs und Blackwell-Grafikkarten mit 900 GB/s kohärent miteinander. Der GB200 NVL2 verwendet sowohl NVLink-C2C als auch NVLink der fünften Generation, um ein kohärentes 1,4-TB-Speichermodell für beschleunigte KI bereitzustellen.

Key-Value-Caching (KV-Caching)

Key-Value-Caching verbessert die LLM-Reaktionsgeschwindigkeit, indem der Konversationskontext und -verlauf gespeichert wird. Der GB200 NVL2 optimiert das KV-Caching durch seinen vollständig kohärenten Speicher der Grace-GPU und der Blackwell-GPU, die über NVLink-C2C miteinander verbunden sind und 7-mal schneller als PCIe sind. Dadurch können LLMs Wörter schneller vorhersagen als x86-basierte GPU-Implementierungen.

NVIDIA NVLink der fünften Generation

Um das volle Potenzial von Exascale-Computing und KI-Modellen mit Billionen Parametern auszuschöpfen, ist eine schnelle, nahtlose Kommunikation zwischen allen Grafikkarten innerhalb eines Server-Clusters erforderlich. Die fünfte Generation von NVLink ist eine Scale-up-Verbindung, die beschleunigte Leistung für KI-Modelle mit Billionen oder mehreren Billionen Parametern bietet.

NVIDIA Networking

Das Netzwerk des Rechenzentrums spielt eine entscheidende Rolle, um Fortschritte und Leistung der KI voranzutreiben, und dient als Basis für verteiltes KI-Modelltraining und generative KI. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800-Ethernet und NVIDIA BlueField®-3- DPUs ermöglichen effiziente Skalierbarkeit über Hunderte oder Tausende Blackwell-Grafikkarten für eine optimale Anwendungsleistung.

Technische Daten

GB200 NVL2¹ Technische Daten

Konfiguration 2x Grace-CPUs, 2x Blackwell-GPUs
FP4 Tensor-Recheneinheit² 40 PFLOPS
FP8/FP6 Tensor-Recheneinheit² 20 PFLOPS
INT8-Tensor-Recheneinheit² 20 POPS
FP16/BF16 Tensor-Recheneinheit² 10 PFLOPS
TF32 Tensor-Recheneinheit² 5 PFLOPS
FP32 180 TFLOPS
FP64/FP64 Tensor-Core 90 TFLOPS
Grafikkartenspeicher | Bandbreite Bis zu 384 GB | 16 TB/s
Anzahl der CPU-Recheneinheiten 144 Arm® Neoverse V2-Recheneinheiten
LPDDR5X-Speicher | Bandbreite Bis zu 960 GB | Bis zu 1.024 GB/s
Konnektivität NVLink: 1,8 TB/s
NVLink-C2C: 2x 900 GB/s
PCIe Gen 6: 2x 256 GB/s
Serveroptionen Verschiedene Konfigurationsoptionen für NVIDIA GB200 NVL2 mit NVIDIA MGX
NVIDIA Grace Blackwell NVL72

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72 verbindet 36 GB200-Superchips im Rack-Maßstab. GB200 NVL72 ist eine Rack-Lösung mit Flüssigkeitskühlung und einer NVLink-Domäne mit 72 Grafikkarten, die als einzelne, massive Grafikkarte funktioniert.

Erste Schritte

Immer aktuell

Melden Sie sich an, um benachrichtigt zu werden, wenn NVIDIA Blackwell verfügbar wird.