Piattaforma NVIDIA HGX

Accelerare l'IA avanzata in tutti i data center.

Panoramica
Inferenza
Addestramento
Reti
Specifiche

Panoramica

Panoramica
Inferenza
Addestramento
Reti
Specifiche

Creata appositamente per l'IA e il calcolo ad alte prestazioni

L'IA, le simulazioni complesse e gli enormi set di dati richiedono più GPU con interconnessioni estremamente veloci e uno stack software completamente accelerato. La piattaforma NVIDIA HGX™ riunisce tutta la potenza delle GPU NVIDIA, NVIDIA NVLink™, la rete NVIDIA e gli stack software di IA e calcolo ad alte prestazioni (HPC) completamente ottimizzati per fornire le massime prestazioni applicative e ottenere le informazioni nel minor tempo possibile in ogni data
center.

Piattaforma completa di computing accelerato senza pari

NVIDIA HGX B300 NVL16 integra le GPU NVIDIA Blackwell Ultra con interconnessioni ad alta velocità per proiettare il data center in una nuova era di calcolo accelerato e IA generativa. Essendo una piattaforma di scalabilità accelerata di primo livello con prestazioni di inferenza fino a 11 volte superiori rispetto alla generazione precedente, i sistemi HGX basati su Blackwell sono progettati per l'IA generativa, l'analisi dei dati e i carichi di lavoro HPC più esigenti.

NVIDIA HGX include opzioni di rete avanzate, a velocità fino a 800 gigabit al secondo (Gb/s), utilizzando NVIDIA Quantum-X800 InfiniBand e Spectrum™-X Ethernet per le massime prestazioni IA. HGX include inoltre le unità di elaborazione dati (DPU) NVIDIA BlueField®-3 per consentire la rete cloud, lo storage componibile, la sicurezza zero-trust e l'elasticità di calcolo della GPU nei cloud IA iperscalabili.

Inferenza di ragionamento IA: prestazioni e versatilità

Inferenza su deep learning in tempo reale

Prestazioni previste soggette a modifica. Latenza da token a token (TTL) = 20 ms in tempo reale, latenza del primo token (FTL) = 5 s, lunghezza della sequenza di ingresso = 32.768, lunghezza della sequenza di output = 1.028, 8x GPU HGX H100 a otto vie raffreddate ad aria rispetto a 1x HGX B300 NVL16 raffreddata ad aria, per confronto delle prestazioni della GPU, servita utilizzando l'inferenza disaggregata.

Inferenza in tempo reale di modelli linguistici di grandi dimensioni

HGX B300 NVL16 ottiene prestazioni di inferenza fino a 11 volte superiori rispetto alla precedente generazione NVIDIA Hopper™ per modelli come Llama 3.1 405B. Il Transformer Engine di seconda generazione utilizza la tecnologia Blackwell Tensor Core personalizzata combinata con le innovazioni TensorRT™-LLM per accelerare l'inferenza per modelli linguistici (LLM) di grandi dimensioni.

Addestramento IA: prestazioni e scalabilità

Prestazioni previste soggette a modifica. 8x HGX H100 a otto vie rispetto a 1x HGX B300 NVL16, confronto delle prestazioni per GPU.

Prestazioni di addestramento di nuovo livello

Il Transformer Engine di seconda generazione, con precisione in virgola mobile a 8 bit (FP8) e nuove precisioni, consente un addestramento 4 volte più veloce per modelli linguistici di grandi dimensioni come Llama 3.1 405B. Questa innovazione è integrata da NVLink di quinta generazione, con 1,8 TB/s di interconnessione da GPU a GPU, networking InfiniBand e il software NVIDIA Magnum IO™. Insieme, garantiscono un'efficiente scalabilità per le imprese e cluster di computing GPU completi.

Accelerare HGX con NVIDIA Networking

Il data center è la nuova unità di calcolo, e la rete gioca un ruolo fondamentale nel ridimensionare le prestazioni delle applicazioni. Insieme a NVIDIA Quantum InfiniBand, HGX offre prestazioni ed efficienza di prim'ordine, garantendo il pieno utilizzo delle risorse di calcolo.

Per i data center cloud IA che distribuiscono Ethernet, HGX è utilizzata al meglio con la piattaforma di rete NVIDIA Spectrum-X™, che alimenta le massime prestazioni IA su Ethernet. È dotata di switch Spectrum-X e NVIDIA SuperNIC™ per l'utilizzo ottimale delle risorse e l'isolamento delle prestazioni, fornendo risultati coerenti e prevedibili per migliaia di processi IA simultanei su ogni scala. Spectrum-X consente una multi-tenancy cloud avanzata e la sicurezza zero-trust. Come progetto di riferimento, NVIDIA ha progettato Israel-1, un supercomputer IA generativa iperscalabile creato con i server Dell PowerEdge XE9680 basati sulla piattaforma NVIDIA HGX 8-GPU, sui SuperNIC BlueField-3 e sugli switch Spectrum-4.

Specifiche di NVIDIA HGX

NVIDIA HGX è disponibile in schede di base singole con quattro o otto GPU Hopper, otto GPU NVIDIA Blackwell o sedici GPU Blackwell Ultra. Queste potenti combinazioni di hardware e software gettano le basi per prestazioni di supercalcolo IA senza precedenti.

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
Fattore di forma	16x GPU NVIDIA Blackwell Ultra	8x GPU NVIDIA Blackwell
FP4 Tensor Core**	144 PFLOPS \| 105 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 Tensor Core*	72 PFLOPS	72 PFLOPS
INT8 Tensor Core*	2 POPS	72 POPS
FP16/BF16 Tensor Core*	36 PFLOPS	36 PFLOPS
TF32 Tensor Core*	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
FP64/FP64 Tensor Core	10 TFLOPS	296 TFLOPS
Memoria totale	Fino a 2,3 TB	1,4 TB
NVLink	Quinta generazione	Quinta generazione
NVIDIA NVSwitch™	NVLink 5 Switch	NVLink 5 Switch
Banda GPU-GPU NVSwitch	1,8 TB/s	1,8 TB/s
Banda NVLink totale	14,4 TB/s	14,4 TB/s
Networking Bandwidth	1,6 TB/s	0,8 TB/s
Attention Performance	2X	1X

* Con densità

** Con sparsità | senza sparsità

Leggi la scheda tecnica di NVIDIA Blackwell

	HGX H200
	4 GPU	8 GPU
Fattore di forma	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Memoria totale	564 GB HBM3	1,1 TB HBM3
Larghezza di banda aggregata della GPU	19 GB/s	38 GB/s
NVLink	Quarta generazione	Quarta generazione
NVSwitch	N/D	NVLink 4 Switch
Banda GPU-GPU NVSwitch	N/D	200 GB/s
Banda totale aggregata	3,6 TB/s	7,2 TB/s
Networking Bandwidth	0,4TB/s	0,8TB/s

	HGX H100
	4 GPU	8 GPU
Fattore di forma	4 x NVIDIA H100 SXM	8 x NVIDIA H100 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Memoria totale	320 GB HBM3	640 GB HBM3
Larghezza di banda aggregata della	13 GB/s	27 GB/s
NVLink	Quarta generazione	Quarta generazione
NVSwitch	N/D	NVLink 4 Switch
Banda GPU-GPU NVSwitch	N/D	200 GB/s
Banda totale aggregata	3,6 TB/s	7,2 TB/s
Networking Bandwidth	0,4TB/s	0,8TB/s

* Con densità

Leggi la scheda tecnica di NVIDIA HGX H100 e HGX H200

Scopri di più sull'architettura NVIDIA Blackwell.

Scopri di più