NVIDIA Ampere-Architektur

Das Herzstück der leistungsstärksten, elastischen Rechenzentren.

Das Herzstück von KI und HPC im modernen Rechenzentrum

Lösung der weltweit wichtigsten wissenschaftlichen, industriellen und geschäftlichen Herausforderungen mit KI und HPC. Visualisierung komplexer Inhalte, um innovative Produkte zu erstellen, immersive Geschichten zu erzählen und Städte der Zukunft neu zu erfinden. Extrahieren neuer Erkenntnisse aus riesigen Datensätzen. Die NVIDIA Ampere-Architektur, die für die Ära des elastischen Computing entwickelt wurde, stellt sich all diesen Herausforderungen und bietet eine unübertroffene Beschleunigung in jeder Größenordnung.

Bahnbrechende Innovationen

Die NVIDIA Ampere-Architektur umfasst 54 Milliarden Transistoren und ist der größte 7-Nanometer-(nm-)Chip, der je gebaut wurde. Zudem bietet er sechs bahnbrechende Innovationen.

Tensor-Recheneinheiten der dritten Generation

Mit der ersten Einführung in der NVIDIA Volta-Architektur hat die NVIDIA Tensor Recheneinheit-Technologie KI drastisch beschleunigt, wodurch die Trainingszeiten von mehreren Wochen auf wenige Stunden gesenkt und die Inferenz massiv beschleunigt wurde. Die NVIDIA Ampere-Architektur baut auf diesen Innovationen auf und ermöglicht neue Präzisionsniveaus – Tensor Float (TF32) und Gleitkomma 64 (FP64) –, um die KI-Akzeptanz zu beschleunigen und zu vereinfachen und die Leistung von Tensor-Recheneinheiten auf HPC auszudehnen.

TF32 funktioniert genau wie FP32 und liefert bis zu 20-mal mehr Leistung für KI, ohne dass Codeänderungen erforderlich sind. Mit Nvidia Automatic Mixed Precision können Forscher mit automatischer Mixed-Precision und FP16 eine zusätzliche 2-fache Leistung erzielen, indem sie nur ein paar Codezeilen hinzufügen. Mit der Unterstützung von bfloat16, INT8 und INT4 sind die Tensor-Recheneinheiten in den NVIDIA Ampere-Architektur Tensor Core Grafikprozessoren ein unglaublich vielseitiger Beschleuniger für KI-Training und Inferenz. Mit der Leistung von Tensor-Recheneinheiten für HPC ermöglichen die A100- und A30-Grafikprozessoren auch Matrixoperationen in vollständiger, IEEE-zertifizierter FP64-Präzision.

NVIDIA Tensor Core-Technologie der dritten Generation
Mehr-Instanzen-Grafikprozessor (MIG) unterstützt A100 und A30 NVIDIA-Grafikprozessoren

Mehr-Instanzen-Grafikprozessor (MIG)

Jede KI- und HPC-Anwendung kann von Beschleunigung profitieren, aber nicht jede Anwendung benötigt die Leistung eines vollständigen Grafikprozessors. Der Mehr-Instanzen-Grafikprozessor (MIG) ist eine von A100- und A30-Grafikprozessoren unterstützte Funktion, mit der Workloads den Grafikprozessor gemeinsam nutzen können. Mit MIG kann jede GPU in mehrere Grafikprozessorinstanzen aufgeteilt werden, die auf Hardwareebene sicher und vollständig isoliert ausgeführt werden und über eigene Speicher-, Cache- und Rechnereinheiten mit hoher Bandbreite verfügen. Entwickler können nun auf bahnbrechende Beschleunigung für alle großen und kleinen Anwendungen zugreifen und garantierte Servicequalität erhalten. Außerdem können IT-Administratoren eine passende Grafikprozessorbeschleunigung für die optimale Auslastung anbieten und den Zugriff auf alle Benutzer und Anwendungen sowohl in Bare-Metal als auch in virtualisierten Umgebungen erweitern.

Geringe Dichte bei KI-Inferenz und maschinellem Lernen

Strukturelle geringe Dichte

Moderne KI-Netzwerke sind groß und werden immer größer – mit Millionen und in einigen Fällen Milliarden von Parametern. Nicht alle dieser Parameter sind für genaue Vorhersagen und Inferenz erforderlich und einige können in Nullen konvertiert werden, sodass die Modelle eine „geringe Dichte“ aufweisen, ohne dass die Genauigkeit beeinträchtigt wird. Tensor-Recheneinheiten können bis zu 2-mal mehr Leistung bei Sparse-Modellen erzielen. Auch wenn das Sparse-Feature der KI-Inferenz dient, kann es auch verwendet werden, um die Leistung des Modelltrainings zu verbessern.

RT-Recheneinheiten der zweiten Generation

Die RT-Cores der zweiten Generation der NVIDIA Ampere-Architektur in der NVIDIA A40 bieten massive Beschleunigungen für Workloads wie fotorealistisches Rendering von Filminhalten, Architekturdesignbewertungen und virtuelles Prototyping von Produktdesigns. RT-Recheneinheiten beschleunigen zudem das Rendering der Bewegungsunschärfe mit Raytracing für schnellere Ergebnisse mit größerer visueller Genauigkeit und können gleichzeitig Raytracing mit Schattierungen oder Denoising ausführen.

NVIDIA A40- und A10-Grafikprozessoren
NVIDIA A100 Tensor-Core-GPU

Intelligenterer, schnellerer Speicher

A100 erweitert Rechenzentren um massive Rechenkapazitäten. Um die volle Auslastung dieser Rechenkapazitäten zu gewährleisten, verfügt die A100 über eine sensationelle Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s), mehr als doppelt so viel gegenüber der Vorgängergeneration. Außerdem verfügt die A100 über deutlich größeren integrierten Speicher, darunter einen Level-2-Cache mit 40 Megabyte (MB) – das Siebenfache der vorherigen Generation –, um die Rechenleistung zu maximieren.

Optimiert für Scale

NVIDIA GPU und konvergierte Beschleuniger von NVIDIA wurden speziell für die Bereitstellung in großem Maßstab entwickelt und bringen Netzwerke, Sicherheit und geringen Platzbedarf in die Cloud, das Rechenzentrum und die Edge.

Leistungsoptimiert für jeden Server

Die NVIDIA A2 GPU hat den geringsten Platzbedarf im Portfolio und ist für Inferenz-Workloads und Bereitstellungen in Einstiegsservern optimiert, die durch Platz- und Wärmeanforderungen wie 5G-Edge- und Industrieumgebungen eingeschränkt sind. A2 bietet einen Low-Profile-Formfaktor, der bei Low-Power-Energieverbrauch betrieben wird, von einer Thermal Design Power (TDP) von 60 W bis zu 40 W, was ihn ideal für jeden Server macht.

NVIDIA A2 Tensor-Core-GPU
Konvergierter Beschleuniger von NVIDIA

Vereinheitlichte Rechenleistung und Netzwerkbeschleunigung

In konvergenten NVIDIA-Beschleunigern werden die NVIDIA Ampere-Architektur und die NVIDIA BlueField®-2 Data Processing Unit (DPU) vereint, um beispiellose Leistung mit verbesserter Sicherheit und Vernetzung für GPU-gestützte Workloads in den Bereichen Edge Computing, Telekommunikation und Netzwerksicherheit zu bieten. BlueField-2 kombiniert die Leistung von NVIDIA ConnectX®-6 Dx mit programmierbaren Arm®-Kernen und Hardwareentlastungen für softwaredefinierte Speicher-, Netzwerk-, Sicherheits- und Verwaltungsworkloads. Konvergente Beschleuniger von NVIDIA ermöglichen ein neues Maß an Rechenzentrumseffizienz und -sicherheit für netzwerkintensive, GPU-beschleunigte Workloads.

Dichteoptimiertes Design

 Der NVIDIA A16-Grafikprozessor bietet ein Quad-GPU-Boarddesign, das für Benutzerdichte optimiert ist und in Kombination mit der NVIDIA Virtual PC (vPC)-Software grafikintensive virtuelle PCs ermöglicht, auf die von überall zugegriffen werden kann. NVIDIA A16 bietet eine höhere Bildrate und eine geringere Endbenutzerlatenz als eine rein CPU-betriebene VDI. Dies sorgt für reaktionsschnellere Anwendungen und eine Benutzererfahrung, die sich nicht von der eines nativen PCs unterscheiden lässt.

NVIDIA A16-Grafikprozessor
Hardware-Root-of-Trust

Sichere Implementierung

Sichere Implementierungen sind für den Geschäftsbetrieb von Unternehmen von entscheidender Bedeutung. Die NVIDIA Ampere-Architektur bietet optional sicheres Booten durch vertrauenswürdige Codeauthentifizierung und bewährten Rollback-Schutz, um sich vor böswilligen Malware-Angriffen zu schützen, Betriebsverluste zu verhindern und Workloads zu beschleunigen.

Einblick in die NVIDIA Ampere Architektur

Entdecken Sie die neuesten Technologien der NVIDIA Ampere Architektur.