Architettura NVIDIA Ampere

Il cuore dei data center elastici con le più alte prestazioni del mondo.

Il cuore dell'IA e dell'HPC nel data center moderno

Risolvere i principali problemi del mondo in ambito scientifico, industriale e commerciale con l'IA e l'HPC. Visualizzare contenuti complessi per creare prodotti all'avanguardia, raccontare storie coinvolgenti e reimmaginare le città del futuro. Estrarre nuove informazioni da enormi dataset. L'architettura NVIDIA Ampere, progettata per l'era del computing "elastico", è all'altezza di queste sfide offrendo una velocità senza pari in ogni ordine di grandezza.

Innovazioni rivoluzionarie

Realizzato con 54 miliardi di transistor, l'architettura NVIDIA Ampere è il più grande chip a 7 nanometri (nm) mai costruito e include cinque principali innovazioni all'avanguardia.

Tensor Core di terza generazione

Inizialmente introdotta nell'architettura NVIDIA Volta, la tecnologia NVIDIA Tensor Core ha generato accelerazioni significative nell'IA, riducendo i tempi di training da settimane a ore e garantendo massima accelerazione per l'inferenza. L'architettura NVIDIA Ampere si basa su queste innovazioni e aggiunge nuove precisioni, Tensor Float 32 (TF32) e virgola mobile a 64 (FP64), per accelerare e semplificare l'adozione dell'IA ed espandere la potenza dei Tensor Core all'HPC.

La precisione TF32 funziona esattamente come la FP32 con velocità fino a 20 volte superiori per l'IA senza alcuna variazione del codice. Con NVIDIA Automatic Mixed Precision, i ricercatori possono raddoppiare le prestazioni grazie alla precisione mista automatica e alla precisione FP16 aggiungendo solo poche righe di codice. Inoltre, grazie al supporto per bfloat16, INT8 e INT4, i Tensor Core nelle GPU Tensor Core basate su architettura NVIDIA Ampere creano un acceleratore incredibilmente versatile per il training e l'inferenza su IA. Portando la potenza dei Tensor Core nell'HPC, le GPU A100 e A30 consentono anche l'esecuzione di operazioni in matrice complete, con conformi allo standard IEEE e con precisione FP64.

Tecnologia NVIDIA Tensor Core di terza generazione
Multi-Instance GPU (MIG) supporta le GPU NVIDIA A100 e A30

Multi-Instance GPU (MIG)

Ogni applicazioni IA e HPC può beneficiare dell'accelerazione, ma non tutte hanno bisogno delle prestazioni di una GPU completa. Multi-Instance GPU (MIG) è una funzionalità supportata su GPU A100 e A30 che consente ai carichi di lavoro di condividere la GPU. Con MIG, ciascuna GPU può essere ripartita su più istanze GPU, completamente isolata e sicura a livello di hardware con la memoria ad alta banda, la cache e i core di elaborazione. Ora, gli sviluppatori possono accedere a strumenti di accelerazione all'avanguardia per tutte le applicazioni, grandi e piccole, e ottenere qualità del servizio garantito. Mentre gli amministratori IT possono offrire un'accelerazione GPU correttamente dimensionata con utilizzo ottimale ed estendere l'accesso a ogni utente e applicazione in ambienti fisici e virtualizzati.

Densità nell'inferenza con IA e machine learning

Densità strutturale

Le reti IA moderne sono grandi e continuano ad espandersi, con milioni e in alcuni casi miliardi di parametri. Non tutti questi parametri sono necessarie per previsioni e inferenze accurate e alcuni possono essere convertiti in zeri per rendere i modelli "densi" senza comprometterne l'accuratezza. I Tensor Core offrono prestazioni fino a 2 volte superiori per i modelli densi. Sebbene l'inferenza IA benefici immediatamente della riduzione della densità, anche le prestazioni di training del modello possono trarne vantaggio.

RT Core di seconda generazione

Gli RT Core di seconda generazione dell'architettura NVIDIA Ampere nella NVIDIA A40 garantiscono accelerazioni massicce per carichi di lavoro come il rendering fotorealistico di contenuti cinematografici, valutazioni di progetti architettonici e prototipazione virtuale di design di prodotti. Gli RT Core accelerano anche il rendering del motion blur con ray-tracing per ottenere risultati più rapidi con una maggiore accuratezza visiva e possono eseguire simultaneamente il ray-tracing con capacità di shading o denoising.

GPU NVIDIA A40 e A10
GPU NVIDIA A100 Tensor Core

Memoria più veloce e intelligente

La A100 porta un'enorme potenza di calcolo nei data center. Per massimizzare l'uso dei motori di elaborazione, offre una memoria di banda eccezionale di 2 terabyte al secondo (TB/sec), più del doppio rispetto alla generazione precedente. Inoltre, il sistema A100 include più memoria on-chip, con una cache di livello 2 da 40 megabyte (MB), 7 volte più estesa rispetto alla generazione precedente, per massimizzare le prestazioni di calcolo.

Ottimizzati per la scalabilità

Le soluzioni GPU e acceleratori convergenti di NVIDIA sono state concepite appositamente per la distribuzione su larga scala, in modo da portare il networking e la sicurezza a basso ingombro nel data center e come nei sistemi perimetrali.

Potenza ottimizzata per qualsiasi server

Con l'ingombro più ridotto della gamma, la GPU NVIDIA A2 è ottimizzata per carichi di lavoro di inferenza e distribuzione su server entry-level con vincoli di spazio e termici, come ambienti 5G Edge industriali. La A2 offre un fattore di forma a basso profilo che opera in un involucro a basso consumo, da una potenza di progettazione termica (TDP) di 60 W fino a 40 W, il che la rende ideale per qualsiasi server.

GPU NVIDIA A2 Tensor Core
Acceleratore convergente NVIDIA

Computing e accelerazione di rete unificati

Negli acceleratori convergenti NVIDIA, la combinazione dell'architettura NVIDIA Ampere e l'unità di elaborazione dati (DPU) NVIDIA BlueField®-2 garantisce prestazioni senza pari con sicurezza e networking avanzati per i carichi di lavoro basati su GPU nell'Edge Computing, nelle telecomunicazioni e nella protezione della rete. La BlueField-2 combina la potenza di NVIDIA ConnectX®-6 Dx con Arm® Core programmabili e riduzione del carico hardware per storage, networking, sicurezza e gestione software-defined. Gli acceleratori convergenti NVIDIA consentono un nuovo livello di efficienza e sicurezza nel data center per carichi di lavoro ad alta intensità di rete e accelerati da GPU.

Design ottimizzato per la densità

 Il design quad-GPU della scheda NVIDIA A16 è ottimizzato per la desnità utente e, abbinata al software NVIDIA Virtual PC (vPC), consente di accedere a PC virtuali a elevati contenuti grafici da qualsiasi luogo. Aumenta il frame rate e riduci la latenza per l'utente rispetto alla VDI basata solo su CPU con NVIDIA A16, per applicazioni più reattive e un'esperienza utente indistinguibile da quella di un PC nativo.

GPU NVIDIA A16
Hardware Root of Trust

Distribuzioni sicure

Le distribuzioni sicure sono fondamentali per le operazioni aziendali. L'architettura NVIDIA Ampere offre opzionalmente un boot sicuro attraverso l'autenticazione del codice attendibile e le protezioni di rollback rafforzate contro gli attacchi malware, il che permette di prevenire perdite operative e garantire l'accelerazione del carico di lavoro.

Dentro l'architettura NVIDIA Ampere

Esplora le tecnologie all'avanguardia dell'architettura NVIDIA Ampere.