Superturbo für KI- und HPC-Workloads.
Die NVIDIA H200-Tensor-Core-Grafikkarte bietet generative KI- und HPC(High-Performance Computing)-Workloads mit bahnbrechender Leistung und Speicherkapazität. Als erste Grafikkarte mit HBM3e treibt der größere und schnellere Speicher der H200 die Beschleunigung generativer KI und großer Sprachmodelle (LLMs) an und beschleunigt gleichzeitig wissenschaftliche Berechnungen für HPC-Workloads.
1,9X schneller
1,6X schneller
110X schneller
Die NVIDIA H200 basiert auf der NVIDIA Hopper™- Architektur und ist die erste Grafikkarte mit 141 Gigabyte (GB) HBM3e-Speicher bei einer Leistung von 4,8 Terabyte pro Sekunde (TB/s) – das entspricht fast der doppelten Kapazität der NVIDIA H100 Tensor Core-Grafikkarte mit 1,4-facher Speicherbandbreite. Der größere und schnellere Speicher der H200 beschleunigt generative KI und LLMs und bringt gleichzeitig das wissenschaftliche Computing für HPC-Workloads mit besserer Energieeffizienz und niedrigeren Gesamtbetriebskosten voran.
Vorläufige Spezifikationen. Änderungen vorbehalten.
Llama2 13B: ISL 128, OSL 2K | Durchsatz | H100 SXM 1x Grafikkarte BS 64 | H200 SXM 1x Grafikkarte BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 SXM Grafikkarten BS 64 | x8 H200 SXM Grafikkarten BS 128
Llama2 70B: ISL 2K, OSL 128 | Durchsatz | H100 SXM 1x Grafikkarte BS 8 | H200 SXM 1x Grafikkarte BS 32.
In der sich ständig weiterentwickelnden KI-Landschaft verlassen sich Unternehmen auf LLMs, um eine Vielzahl von Inferenzanforderungen zu erfüllen. Ein KI-Inferenzbeschleuniger muss den höchsten Durchsatz bei geringstmöglichen Gesamtbetriebskosten bieten, wenn er für eine riesige Nutzerbasis im großen Umfang bereitgestellt wird.
Die H200 verdoppelt die Inferenzgeschwindigkeit bei der Verarbeitung von LLMs wie Llama2 im Vergleich zu H100-Grafikprozessoren.
Die Speicherbandbreite ist für HPC-Anwendungen von entscheidender Bedeutung, da sie eine schnellere Datenübertragung ermöglicht und Engpässe bei der komplexen Verarbeitung reduziert. Für speicherintensive HPC-Anwendungen wie Simulationen, Forschung und künstliche Intelligenz stellt die höhere Speicherbandbreite von H200 sicher, dass Daten effizient abgerufen und bearbeitet werden können, was bis zu einer 110-mal schnelleren Ergebnisbereitstellung im Vergleich zu CPUs führt.
Vorläufige Spezifikationen. Änderungen vorbehalten.
HPC MILC – Datensatz NERSC Apex Medium | HGX H200 4-Grafikkarte | Dual Sapphire Rapids 8480
HPC-Anwendungen – CP2K: Datensatz H2O-32-RI-dRPA-96points | GROMACS: Datensatz STMV | ICON: Datensatz r2b5 | MILC: Datensatz NERSC Apex Medium | Chroma: Datensatz HMC Medium | Quantum Espresso: Datensatz AUSURF112 | 1 x H100 SXM | 1 H200 SXM.
Die NVIDIA H200 NVL ist ideal für Unternehmen mit luftgekühlten Rack-Systemen geringerer Leistung, die flexible Konfigurationen erfordern, und beschleunigt KI- und HPC-Workloads unabhängig von ihrer Größe. Mit bis zu vier über NVIDIA NVLink™ verbundenen GPUs und einer 1,5-fachen Speichererweiterung kann die Inferenz mit großen Sprachmodellen (LLM) bis zu 1,7-fach beschleunigt werden und erreichen HPC-Anwendungen eine bis zu 1,3-fache höhere Leistung gegenüber der H100 NVL.
NVIDIA H200 NVL ist mit einem fünfjährigen NVIDIA AI Enterprise-Abonnement gebündelt und vereinfacht die Art und Weise, wie Sie eine KI-fähige Plattform für Unternehmen erstellen. H200 beschleunigt die Entwicklung und Bereitstellung von KI für produktionsfähige generative KI-Lösungen, einschließlich Computer Vision, Sprach-KI, Retrieval Augmented Generation (RAG) und mehr. NVIDIA AI Enterprise umfasst NVIDIA NIM™, eine Reihe einfach zu bedienender Microservices, die entwickelt wurden, um die generative KI-Bereitstellung in Unternehmen zu beschleunigen. Zusammen bieten Bereitstellungen Sicherheit, Verwaltbarkeit, Stabilität und Support auf Unternehmensebene. Dies führt zu leistungsoptimierten KI-Lösungen, die schnelleren Geschäftswert und umsetzbare Erkenntnisse liefern.
Formfaktor | H200 SXM¹ | H200 NVL¹ |
---|---|---|
FP64 | 34 TFLOPS | 30 TFLOPS |
FP64 Tensor-Core | 67 TFLOPS | 60 TFLOPS |
FP32 | 67 TFLOPS | 60 TFLOPS |
TF32 Tensor-Core² | 989 TFLOPS | 835 TFLOPS |
BFLOAT16 Tensor-Core² | 1,979 TFLOPS | 1.671 TFLOPS |
FP16 Tensor-Core² | 1,979 TFLOPS | 1.671 TFLOPS |
FP8 Tensor-Core² | 3,958 TFLOPS | 3.341 TFLOPS |
INT8 Tensor-Core² | 3,958 TFLOPS | 3.341 TFLOPS |
Grafikkartenspeicher | 141GB | 141 GB |
Grafikkartenspeicher-Bandbreite | 4,8TB/s | 4,8 TB/s |
Decoder | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
Confidential Computing | Unterstützt | Unterstützt |
Max. Thermal Design Power (TDP) | Bis zu 700 W (konfigurierbar) | Bis zu 600 W (konfigurierbar) |
Mehr-Instanzen-Grafikkarte | Bis zu 7 MIGs mit je 18 GB | Bis zu 7 MIGs mit jeweils 16,5 GB |
Formfaktor | SXM | PCI-E Zwei Steckplätze mit Luftkühlung |
Konnektivität | NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s |
"NVIDIA NVLink 2- oder 4-Wege-Brücke: 900 GB/s pro GPU PCI-E Gen5: 128 GB/s |
Serveroptionen | NVIDIA HGX™ H200-Partner und NVIDIA-Certified Systems™ mit 4 oder 8 Grafikkarten | NVIDIA MGX™ H200 NVL Partner und NVIDIA-Certified Systems mit bis zu 8 GPUs |
NVIDIA AI Enterprise | Add-on | Inbegriffen |
1 Vorläufige Spezifikationen. Änderungen vorbehalten. |
LErfahren Sie mehr über die Leistung unserer Rechenzentrumsprodukte bei Training und Inferenz.