Potenziare i carichi di lavoro IA e HPC.
a GPU NVIDIA H200 Tensor Core potenzia i carichi di lavoro IA e HPC generativi con prestazioni e capacità di memoria rivoluzionarie. Come prima GPU con HBM3e, la memoria più grande e veloce della H200 alimenta l'IA generativa e modelli linguistici di grandi dimensioni (LLM), migliorando al contempo il calcolo scientifico per i carichi di lavoro HPC.
1.9X più veloce
1.6X più veloce
110X più veloce
Basata su architettura NVIDIA Hopper™, la scheda NVIDIA H200 è la prima GPU a offrire 141 gigabyte (GB) di memoria HBM3e a 4,8 terabyte al secondo (TB/s), ovvero quasi il doppio della capacità della GPU NVIDIA H100 Tensor Core con una banda di memoria 1,4 volte superiore. La memoria più grande e veloce della H200 accelera l'IA generativa e gli LLM, potenziando al contempo il calcolo scientifico per i carichi di lavoro HPC, con una migliore efficienza energetica e un costo totale di proprietà inferiore.
Specifiche preliminari. Dati possibilmente soggetti a modifica.
Llama2 13B: ISL 128, OSL 2K | Throughput | H100 SXM 1x GPU BS 64 | H200 SXM 1x GPU BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 SXM GPUs BS 64 | x8 H200 SXM GPUs BS 128
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 SXM 1x GPU BS 8 | H200 SXM 1x GPU BS 32.
Nel panorama in continua evoluzione dell'IA, le aziende si affidano agli LLM per affrontare una vasta gamma di esigenze di inferenza. Un acceleratore di inferenza IA deve fornire il massimo throughput al TCO più basso, se distribuito su larga scala per una vasta base di utenti.
La H200 aumenta la velocità di inferenza fino a 2 volte rispetto alle GPU H100 nella gestione degli LLM come Llama2.
La larghezza di banda della memoria è fondamentale per le applicazioni di HPC, in quanto consente un trasferimento più rapido dei dati, riducendo i colli di bottiglia nelle elaborazioni complesse. Per le applicazioni HPC ad alta intensità di memoria come le simulazioni, la ricerca scientifica e l'intelligenza artificiale, la maggiore larghezza di banda della memoria della H200 garantisce che i dati siano accessibili e manipolabili in modo efficiente, con risultati fino a 110 volte più veloci rispetto alle CPU.
Specifiche preliminari. Dati possibilmente soggetti a modifica.
Set di dati HPC MILC- NERSC Apex Medium | HGX H200 4 GPU | dual Sapphire Rapids 8480
App HPC - CP2K: dataset H2O-32-RI-dRPA-96 punti | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 SXM | 1x H200 SXM.
NVIDIA H200 NVL è ideale per progetti di rack aziendali con un consumo energetico inferiore e raffreddamento ad aria che richiedono configurazioni flessibili, accelerando ciascun carico di lavoro IA e HPC, indipendentemente dalle dimensioni. Con un massimo di quattro GPU connesse da NVIDIA NVLink™ e un aumento di memoria di 1,5 volte, è possibile accelerare l'inferenza dei modelli linguistici di grandi dimensioni (LLM) fino a 1,7 volte, mentre le applicazioni HPC possono ottenere prestazioni fino a 1,3 volte superiori rispetto all'H100 NVL.
NVIDIA H200 NVL è disponibile in bundle con un abbonamento NVIDIA AI Enterprise della durata di cinque anni e semplifica la costruzione di piattaforme aziendali pronte per l'IA. H200 accelera lo sviluppo e la distribuzione di soluzioni di IA generativa pronte per la produzione, tra cui visione artificiale, IA vocale, generazione aumentata di recupero (RAG) e altro ancora. NVIDIA AI Enterprise include NVIDIA NIM™, un set di microservizi di facile utilizzo progettati per velocizzare la distribuzione dell’IA generativa aziendale. Insieme, le distribuzioni offrono sicurezza, gestibilità, stabilità e supporto di livello aziendale. Ciò si traduce in soluzioni di intelligenza artificiale ottimizzate per le prestazioni che offrono un valore aziendale più rapido e informazioni attuabili.
Fattore di forma | H200 SXM¹ | H200 NVL¹ |
---|---|---|
FP64 | 34 TFLOPS | 30 TFLOPS |
FP64 Tensor Core | 67 TFLOPS | 60 TFLOPS |
FP32 | 67 TFLOPS | 60 TFLOPS |
TF32 Tensor Core² | 989 TFLOPS | 835 TFLOPS |
BFLOAT16 Tensor Core² | 1,979 TFLOPS | 1.671 TFLOPS |
FP16 Tensor Core² | 1,979 TFLOPS | 1.671 TFLOPS |
FP8 Tensor Core² | 3,958 TFLOPS | 3.341 TFLOPS |
INT8 Tensor Core² | 3,958 TFLOPS | 3.341 TFLOPS |
Memoria della GPU | 141GB | 141 GB |
Banda di memoria della GPU | 4.8TB/s | 4,8 TB/s |
Decoders | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
Confidential Computing | Supportato | Supportato |
Max Thermal Design Power (TDP) | Fino a 700 W (configurabile) | Fino a 600 W (configurabile) |
Multi-Instance GPUs | Up to 7 MIGs @18GB each | Fino a 7 MIG @16,5 GB ciascuno |
Fattore di forma | SXM | PCIe Raffreddamento ad aria a doppio slot |
Interconnessione | NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s |
Bridge NVIDIA NVLink a 2 o 4 vie: 900 GB/s per GPU PCIe Gen5: 128 GB/s |
Opzioni server | NVIDIA HGX™ H200 Partner e NVIDIA-Certified Systems™ con 4 o 8 GPU | Partner NVIDIA MGX™ H200 NVL e sistemi certificati NVIDIA con un massimo di 8 GPU |
NVIDIA AI Enterprise | Componente aggiuntivo | Incluso |
1 Specifiche preliminari. Dati possibilmente soggetti a modifica. |
Scopri di più sulle prestazioni dei nostri prodotti per l'inferenza e il training del data center.