Accelerare l'IA avanzata in tutti i data center.
L'IA, le simulazioni complesse e gli enormi set di dati richiedono più GPU con interconnessioni estremamente veloci e uno stack software completamente accelerato. La piattaforma NVIDIA HGX™ riunisce tutta la potenza delle GPU NVIDIA, NVIDIA NVLink™, la rete NVIDIA e gli stack software di IA e calcolo ad alte prestazioni (HPC) completamente ottimizzati per fornire le massime prestazioni applicative e ottenere le informazioni nel minor tempo possibile in ogni data
center.
NVIDIA HGX B300 NVL16 integra le GPU NVIDIA Blackwell Ultra con interconnessioni ad alta velocità per proiettare il data center in una nuova era di calcolo accelerato e IA generativa. Essendo una piattaforma di scalabilità accelerata di primo livello con prestazioni di inferenza fino a 11 volte superiori rispetto alla generazione precedente, i sistemi HGX basati su Blackwell sono progettati per l'IA generativa, l'analisi dei dati e i carichi di lavoro HPC più esigenti.
NVIDIA HGX include opzioni di rete avanzate, a velocità fino a 800 gigabit al secondo (Gb/s), utilizzando NVIDIA Quantum-X800 InfiniBand e Spectrum™-X Ethernet per le massime prestazioni IA. HGX include inoltre le unità di elaborazione dati (DPU) NVIDIA BlueField®-3 per consentire la rete cloud, lo storage componibile, la sicurezza zero-trust e l'elasticità di calcolo della GPU nei cloud IA iperscalabili.
Prestazioni previste soggette a modifica. Latenza da token a token (TTL) = 20 ms in tempo reale, latenza del primo token (FTL) = 5 s, lunghezza della sequenza di ingresso = 32.768, lunghezza della sequenza di output = 1.028, 8x GPU HGX H100 a otto vie raffreddate ad aria rispetto a 1x HGX B300 NVL16 raffreddata ad aria, per confronto delle prestazioni della GPU, servita utilizzando l'inferenza disaggregata.
HGX B300 NVL16 ottiene prestazioni di inferenza fino a 11 volte superiori rispetto alla precedente generazione NVIDIA Hopper™ per modelli come Llama 3.1 405B. Il Transformer Engine di seconda generazione utilizza la tecnologia Blackwell Tensor Core personalizzata combinata con le innovazioni TensorRT™-LLM per accelerare l'inferenza per modelli linguistici (LLM) di grandi dimensioni.
Prestazioni previste soggette a modifica. 8x HGX H100 a otto vie rispetto a 1x HGX B300 NVL16, confronto delle prestazioni per GPU.
Il Transformer Engine di seconda generazione, con precisione in virgola mobile a 8 bit (FP8) e nuove precisioni, consente un addestramento 4 volte più veloce per modelli linguistici di grandi dimensioni come Llama 3.1 405B. Questa innovazione è integrata da NVLink di quinta generazione, con 1,8 TB/s di interconnessione da GPU a GPU, networking InfiniBand e il software NVIDIA Magnum IO™. Insieme, garantiscono un'efficiente scalabilità per le imprese e cluster di computing GPU completi.
Il data center è la nuova unità di calcolo, e la rete gioca un ruolo fondamentale nel ridimensionare le prestazioni delle applicazioni. Insieme a NVIDIA Quantum InfiniBand, HGX offre prestazioni ed efficienza di prim'ordine, garantendo il pieno utilizzo delle risorse di calcolo.
Per i data center cloud IA che distribuiscono Ethernet, HGX è utilizzata al meglio con la piattaforma di rete NVIDIA Spectrum-X™, che alimenta le massime prestazioni IA su Ethernet. È dotata di switch Spectrum-X e NVIDIA SuperNIC™ per l'utilizzo ottimale delle risorse e l'isolamento delle prestazioni, fornendo risultati coerenti e prevedibili per migliaia di processi IA simultanei su ogni scala. Spectrum-X consente una multi-tenancy cloud avanzata e la sicurezza zero-trust. Come progetto di riferimento, NVIDIA ha progettato Israel-1, un supercomputer IA generativa iperscalabile creato con i server Dell PowerEdge XE9680 basati sulla piattaforma NVIDIA HGX 8-GPU, sui SuperNIC BlueField-3 e sugli switch Spectrum-4.
NVIDIA HGX è disponibile in schede di base singole con quattro o otto GPU Hopper, otto GPU NVIDIA Blackwell o sedici GPU Blackwell Ultra. Queste potenti combinazioni di hardware e software gettano le basi per prestazioni di supercalcolo IA senza precedenti.
HGX B300 NVL16 | HGX B200 | |
---|---|---|
Fattore di forma | 16x GPU NVIDIA Blackwell Ultra | 8x GPU NVIDIA Blackwell |
FP4 Tensor Core** | 144 PFLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
FP8/FP6 Tensor Core* | 72 PFLOPS | 72 PFLOPS |
INT8 Tensor Core* | 2 POPS | 72 POPS |
FP16/BF16 Tensor Core* | 36 PFLOPS | 36 PFLOPS |
TF32 Tensor Core* | 18 PFLOPS | 18 PFLOPS |
FP32 | 600 TFLOPS | 600 TFLOPS |
FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
Memoria totale | Fino a 2,3 TB | 1,4 TB |
NVLink | Quinta generazione | Quinta generazione |
NVIDIA NVSwitch™ | NVLink 5 Switch | NVLink 5 Switch |
Banda GPU-GPU NVSwitch | 1,8 TB/s | 1,8 TB/s |
Banda NVLink totale | 14,4 TB/s | 14,4 TB/s |
Networking Bandwidth | 1,6 TB/s | 0,8 TB/s |
Attention Performance | 2X | 1X |
* Con densità
** Con sparsità | senza sparsità
Scopri di più sull'architettura NVIDIA Blackwell.