GPU NVIDIA H100 Tensor Core

GPU NVIDIA H100 Tensor Core

Prestazioni, scalabilità e sicurezza straordinarie per ogni data center.

Un enorme passo in avanti per il computing accelerato

La GPU NVIDIA H100 Tensor Core offre prestazioni, scalabilità e sicurezza eccezionali per ogni carico di lavoro. H100 utilizza innovazioni rivoluzionarie basate sull'architettura NVIDIA Hopper™ per fornire un'IA conversazionale leader del settore, accelerando di 30 volte i modelli linguistici di grandi dimensioni (LLM). H100 include anche un Transformer Engine dedicato per risolvere modelli linguistici da trilioni di parametri.

Accelera in tutta sicurezza i carichi di lavoro da Enterprise a Exascale

Addestramento IA su GPT-3 fino a 4 volte superiore

Addestramento IA su GPT-3 fino a 4 volte superiore

Prestazioni stimate soggette a modifica. Cluster A100 per l'addestramento di GPT-3 175B: rete HDR IB, cluster H100: rete NDR IB | Variante di Mixture of Experts (MoE) Training Transformer di Switch-XXL con 395B di parametri su set di dati di token da 1 T, Cluster A100: rete HDR IB, Cluster H100: rete NDR IB con sistema switch NVLink laddove indicato.

Addestramento IA rivoluzionario

H100 è dotata di Tensor Core di quarta generazione e di un Transformer Engine con precisione FP8 che consente un addestramento fino a 4 volte più veloce rispetto alla generazione precedente per i modelli GPT-3 (175B). La combinazione di NVLink di quarta generazione, che offre 900 gigabyte al secondo (GB/s) di interconnessione GPU-GPU, rete NDR Quantum-2 InfiniBand per accelerare la comunicazione da ogni GPU su più nodi, PCIe Gen5 e software NVIDIA Magnum IO™ offre una scalabilità efficiente per passare da piccoli sistemi aziendali a cluster di GPU unificati di grandi dimensioni.

La distribuzione di GPU H100 su scala per data center offre prestazioni straordinarie e rende la nuova generazione di calcolo ad alte prestazioni (HPC) exascale e IA con trilioni di parametri alla portata di tutti i ricercatori.

Inferenza su deep learning in tempo reale

L'IA risolve una vasta gamma di sfide aziendali, utilizzando una gamma ugualmente ampia di reti neurali. Un ottimo acceleratore di inferenza IA non deve garantire solo le massime prestazioni, ma anche la versatilità per accelerare tali reti.

H100 espande la leadership di NVIDIA sul mercato dell'inferenza con numerosi progressi per accelerare l'inferenza fino a 30 volte e offrire una latenza inferiore. I Tensor Core di quarta generazione accelerano tutte le precisioni, tra cui FP64, TF32, FP32, FP16, INT8 e ora anche FP8, per ridurre l'utilizzo della memoria e aumentare le prestazioni, garantendo al contempo l'accuratezza degli LLM.

Prestazioni di inferenza IA fino a 30 volte superiori sui modelli più grandi

Megatron Chatbot Inference (530 miliardi di parametri)

Inferenza su deep learning in tempo reale

Prestazioni stimate soggette a modifica. Inferenza su chatbot basato sul modello di parametri Megatron 530B per una lunghezza della sequenza di input = 128, lunghezza della sequenza di output = 20 | Cluster A100: rete HDR IB | Cluster H100: NVLink Switch System, NDR IB

Prestazioni fino a 7 volte superiori per applicazioni HPC

Applicazioni HPC con IA integrata

Prestazioni stimate soggette a modifica. Throughput 3D FFT (4K^3) | Cluster A100: rete HDR IB | Cluster H100: NVLink Switch System, NDR IB | Sequenziamento del genoma (Smith-Waterman) 1 | A100 | 1 H100

Calcolo ad alte prestazioni exascale

La piattaforma per data center NVIDIA offre vantaggi in termini di prestazioni oltre la legge di Moore. Le nuove e rivoluzionarie funzionalità IA di H100 aumentano ulteriormente la potenza dell'HPC+IA per rendere possibili scoperte più rapide per gli scienziati e i ricercatori che lavorano per risolvere le sfide globali più importanti.

H100 triplica le operazioni in virgola mobile al secondo (FLOPS) dei Tensor Core a doppia precisione, offrendo 60 teraflops di calcolo a FP64 per HPC. Le applicazioni HPC con IA integrata possono inoltre sfruttare la precisione TF32 di H100 per ottenere un petaflop di throughput per operazioni di moltiplicazione di matrici a precisione singola, senza alcuna modifica del codice.

H100 include anche nuove istruzioni DPX che offrono prestazioni 7 volte superiori rispetto ad A100 e accelerazioni 40 volte superiori rispetto alle CPU su algoritmi di programmazione dinamica come Smith-Waterman per l'allineamento delle sequenze del DNA e l'allineamento delle proteine per la previsione della struttura proteica.

Confronto delle istruzioni DPX tra NVIDIA HGX™ H100 a 4 GPU e IceLake a socket doppio con 32 core.

Analisi dei dati accelerata

L'analisi dei dati spesso impegna la maggior parte del tempo nello sviluppo di applicazioni IA. Poiché i set di dati di grandi dimensioni sono disseminati su più server, le soluzioni scale-out con server commodity basati solo su CPU risultano rallentati per via della scarsa scalabilità delle prestazioni di calcolo.

I server accelerati con H100 offrono potenza di calcolo, oltre a 3 terabyte al secondo (TB/s) di banda di memoria per GPU e scalabilità con NVLink e NVSwitch™, necessarie per affrontare l'analisi dei dati con prestazioni elevate e scalabilità al fine di supportare set di dati di grandi dimensioni. Insieme a NVIDIA Quantum-2 InfiniBand, il software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS™, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro con prestazioni ed efficienza superiori.

Server accelerati con H100
NVIDIA Multi-Instance GPU

Utilizzo di livello aziendale

I responsabili IT cercano di massimizzare l'utilizzo (sia di picco che medio) delle risorse di calcolo nel data center. Spesso utilizzano la riconfigurazione dinamica del calcolo per dimensionare correttamente le risorse per i carichi di lavoro in uso.

H100 con MIG consente ai gestori dell'infrastruttura di standardizzare l'infrastruttura accelerata da GPU, assicurando al contempo la flessibilità per poter eseguire il provisioning delle risorse della GPU con maggiore granularità, in modo da garantire agli sviluppatori la giusta capacità di computing accelerato e ottimizzare l'uso di tutte le risorse della GPU.

Confidential computing integrato

Le soluzioni tradizioni di confidential computing si basano sulla CPU, la quale è troppo limitata per i carichi di lavoro ad alto tasso di calcolo come l'IA su vasta scala. NVIDIA Confidential Computing è una funzionalità di sicurezza integrata dell'architettura NVIDIA Hopper, rendendo H100 il primo acceleratore al mondo dotato di queste funzionalità. NVIDIA Blackwell consente di aumentare esponenzialmente le prestazioni, proteggendo al contempo la riservatezza e l'integrità dei dati e delle applicazioni in uso, offrenedo la possibilità di sbloccare insight sui dati come mai prima d'ora. Ora i clienti possono usare un ambiente di esecuzione attendibile (TEE) basato su hardware che protegge e isola gli interi carichi di lavoro nel modo più efficiente.

Soluzioni di confidential computing NVIDIA
Soluzioni di confidential computing NVIDIA

Prestazioni eccezionali per IA e HPC su vasta scala

La GPU Hopper Tensor Core alimenterà l'architettura CPU+GPU NVIDIA Grace Hopper, progettata appositamente per il computing accelerato su vasta scala e per fornire prestazioni 10 volte superiori per applicazioni IA e HPC e con modelli di grandi dimensioni. La CPU NVIDIA Grace sfrutta la flessibilità dell'architettura Arm® per creare un'architettura di CPU e server progettata da zero per il computing accelerato. La GPU Hopper è abbinata alla CPU Grace con l'interconnessione ultra veloce chip-to-chip di NVIDIA, offrendo 900 GB/s di larghezza di banda, 7 volte più veloce rispetto a PCIe Gen5. Questo design innovativo offrirà una larghezza di banda aggregata dalla memoria di sistema alla GPU fino a 30 volte superiore rispetto ai server più veloci di oggi e prestazioni fino a 10 volte superiori per le applicazioni che eseguono terabyte di dati.

Potenzia l'inferenza dei modelli linguistici di grandi dimensioni con H100 NVL

Potenzia l'inferenza dei modelli linguistici di grandi dimensioni con H100 NVL

Per LLM fino a 70 miliardi di parametri (Llama 2 70B), NVIDIA H100 NVL basata su PCIe con bridge NVLink utilizza Transformer Engine, NVLink e 188 GB di memoria HBM3 per fornire prestazioni ottimali e una facile scalabilità in qualsiasi data center, portando gli LLM al vasto pubblico. I server dotati di GPU H100 NVL consentono di aumentare le prestazioni di Llama 2 70B fino a 5 volte rispetto ai sistemi NVIDIA A100, mantenendo una bassa latenza nei data center con consumo energetico limitato.

Pronto per le aziende: il software IA semplifica lo sviluppo e la distribuzione

NVIDIA H100 NVL è disponibile con un abbonamento NVIDIA AI Enterprise della durata di cinque anni e semplifica la creazione di piattaforme aziendali abilitate all'IA. H100 accelera lo sviluppo e la distribuzione di soluzioni di IA generativa pronte per la produzione, tra cui visione artificiale, IA vocale, generazione aumentata di recupero (RAG) e altro ancora. NVIDIA AI Enterprise include NVIDIA NIMTM, un set di microservizi intuitivi progettati per velocizzare la distribuzione dell’IA generativa aziendale. Insieme, le distribuzioni offrono sicurezza, gestibilità, stabilità e supporto di livello aziendale. Ciò si traduce in soluzioni IA ottimizzate per le prestazioni che offrono più rapidamente valore aziendale e insight attuabili.

Specifiche del prodotto

  H100 SXM H100 NVL
FP64 34 teraFLOPS 30 teraFLOPS
FP64 Tensor Core 67 teraFLOPS 60 teraFLOPS
FP32 67 teraFLOPS 60 teraFLOPS
TF32 Tensor Core* 989 teraFLOPS 835 teraFLOPs
BFLOAT16 Tensor Core* 1.979 teraFLOPS 1.671 teraFLOPS
FP16 Tensor Core* 1.979 teraFLOPS 1.671 teraFLOPS
FP8 Tensor Core* 3.958 teraFLOPS 3.341 teraFLOPS
INT8 Tensor Core* 3.958 TOPS 3.341 TOPS
Memoria della GPU 80 GB 94 GB
Banda di memoria GPU 3,35 Tb/s 3,9 TB/s
Decoder 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
TDP (Thermal Design Power) massimo Fino a 700 W (configurabile) 350-400 W (configurabile)
Multi-Instance GPU Fino a 7 MIG a 10 GB Fino a 7 MIG a 12 GB ciascuno
Fattore di forma SXM PCIe
a doppio slot con raffreddamento ad aria
Interconnessione NVIDIA NVLink™: 900 GB/s
PCIe Gen5: 128 GB/s
NVIDIA NVLink: 600 GB/s
PCIe Gen5: 128 GB/s
Opzioni server NVIDIA HGX™ H100 Partner e NVIDIA-
Certified Systems con 4 o 8 GPU
NVIDIA DGX™ H100 con 8 GPU
Sistemi partner e NVIDIA-Certified Systems con 1–8 GPU
NVIDIA AI Enterprise Componente aggiuntivo Incluso

Approfondisci l'architettura NVIDIA Hopper.

Select Location
Middle East