Die Engine hinter den KI-Fabriken für das Zeitalter des KI-Reasoning – jetzt im vollen Produktivbetrieb.
Entdecken Sie die bahnbrechenden Fortschritte, die die NVIDIA Blackwell-Architektur für generative KI und beschleunigtes Computing bietet. Blackwell baut auf Generationen von NVIDIA-Technologien auf und definiert das nächste Kapitel der generativen KI mit unvergleichlicher Leistung, Effizienz und Skalierbarkeit.
GPUs der Blackwell-Architektur enthalten 208 Milliarden Transistoren und werden in einem speziell entwickelten TSMC 4NP-Prozess hergestellt. Alle Blackwell-Produkte verfügen über zwei reticle-begrenzte Chips, die über eine Chip-to-Chip-Schnittstelle mit 10 Terabyte pro Sekunde zu einer einzigen, einheitlichen GPU verbunden sind.
Die Transformer-Engine der zweiten Generation nutzt die benutzerdefinierte Blackwell Tensor Core-Technologie in Kombination mit den Innovationen von NVIDIA TensorRT™-LLM und NeMo™ Framework, um Inferenzen und Trainings für große Sprachmodelle (LLMs) und MoE-Modelle (Mixture-of-Experts) zu beschleunigen. Blackwell Tensor-Recheneinheiten fügen neue Präzisionen hinzu, einschließlich neuer von der Community definierter Mikroskalierungsformate, die eine hohe Genauigkeit und einfache Ersetzbarkeit für größere Präzisionen bieten.
Blackwell Ultra Tensor-Recheneinheiten verfügen über eine 2-fache Beschleunigung der Aufmerksamkeitsebene und 1,5-fache AI-Compute-FLOPS im Vergleich zu Blackwell GPUs. Die Blackwell Transformer Engine nutzt feinkörnige Skalierungstechniken, die sogenannte Micro-Tensor-Skalierung, um Leistung und Genauigkeit zu optimieren und 4-Bit-Gleitkomma-KI (FP4) zu ermöglichen. Dadurch werden die Leistung und Größe von Modellen der nächsten Generation, die der Speicher bei gleichbleibender hoher Genauigkeit unterstützen kann, verdoppelt.
Blackwell umfasst NVIDIA Confidential Computing, das sensible Daten und KI-Modelle mit starker hardwarebasierter Sicherheit vor unbefugtem Zugriff schützt. Blackwell ist die erste TEE-I/O-fähige GPU der Branche und bietet gleichzeitig die leistungsstärkste Lösung für Confidential Computing mit TEE-I/O-fähigen Hosts und Inline-Schutz über NVIDIA NVLink™. Blackwell Confidential Computing bietet im Vergleich zu unverschlüsselten Modi eine nahezu identische Durchsatzleistung. Unternehmen können jetzt selbst die größten Modelle auf leistungsstarke Weise sichern, zusätzlich zum Schutz des geistigen Eigentums an KI und vertrauliche KI-Trainings, Inferenzen und föderiertes Lernen sicher ermöglichen.
Die Erschließung des vollen Potenzials von Exascale-Computing und KI-Modellen mit Billionen Parametern hängt von der Notwendigkeit einer schnellen, nahtlosen Kommunikation zwischen allen Grafikprozessoren in einem Servercluster ab. Die fünfte Generation der NVIDIA NVLink-Schnittstelle kann auf bis zu 576 GPUs skaliert werden, um die beschleunigte Leistung für Billionen- und Multi-Billionen-Parameter-KI-Modelle freizusetzen.
Der NVIDIA NVLink-Switch-Chip ermöglicht 130 TB/s GPU-Bandbreite in einer 72-GPU-NVLink-Domäne (NVL72) und bietet eine 4-fache Bandbreiteneffizienz mit Unterstützung von NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ FP8. Der NVIDIA NVLink-Switch-Chip unterstützt Cluster mit mehr als einem einzelnen Server mit derselben beeindruckenden Verbindung von 1,8 TB/s. Multi-Server-Cluster mit NVLink skalieren die GPU-Kommunikation im Gleichklang mit verbessertem Computing, sodass NVL72 den 9-fachen GPU-Durchsatz im Vergleich zu einem einzelnen System mit acht GPUs unterstützen kann.
Datenanalyse- und Datenbank-Workflows haben traditionell auf CPUs für die Rechenleistung gesetzt. Beschleunigte Datenwissenschaft kann die Leistung von durchgängigen Analysen steigern, die Wertschöpfung beschleunigen und gleichzeitig die Kosten senken. Datenbanken, einschließlich Apache Spark, spielen eine entscheidende Rolle bei der Handhabung, Verarbeitung und Analyse großer Datenmengen für Datenanalysen.
Die Dekompressions-Engine von Blackwell und die Möglichkeit, über eine Hochgeschwindigkeitsverbindung mit einer bidirektionalen Bandbreite von 900 Gigabyte pro Sekunde (GB/s) auf riesige Speichermengen in der NVIDIA Grace™ CPU zuzugreifen, beschleunigen die gesamte Pipeline von Datenbankabfragen für höchste Leistung in der Datenanalyse und Datenwissenschaft mit Unterstützung der neuesten Komprimierungsformate wie LZ4, Snappy und Deflate.
Blackwell fügt intelligente Ausfallsicherheit mit einer speziellen RAS-Engine (Reliability, Availability, and Serviceability) hinzu, um potenzielle Fehler frühzeitig zu erkennen und Ausfallzeiten zu minimieren. Die KI-gestützten Funktionen für vorausschauendes Management von NVIDIA überwachen kontinuierlich Tausende von Datenpunkten über Hardware und Software hinweg, um den allgemeinen Zustand zu prüfen und Quellen von Ausfallzeiten und Ineffizienzen vorherzusagen und abzufangen. Dadurch wird eine intelligente Ausfallsicherheit geschaffen, die Zeit, Energie und Rechenkosten spart.
Die RAS-Engine von NVIDIA liefert detaillierte Diagnoseinformationen zur Identifizierung von Problembereichen und zur Planung von Wartungsmaßnahmen. Die RAS-Engine verkürzt die Durchlaufzeit durch schnelles Lokalisieren der Problemursache und minimiert Ausfallzeiten durch effektive Behebung.
Erfahren Sie mehr über die Architektur, die die neue Ära der generativen KI und des beschleunigten Computing vorantreibt.