Inferenza con AI

NVIDIA Dynamo

Scala e fornisci l'IA generativa, velocemente.

Panoramica

Inferenza distribuita a bassa latenza
per l'IA generativa

NVIDIA Dynamo è un framework di inferenza modulare open source per la fornitura di modelli di IA generativa in ambienti distribuiti. Consente la scalabilità semplice dei carichi di lavoro di inferenza su flotte di GPU di grandi dimensioni con la pianificazione dinamica delle risorse, il routing intelligente delle richieste, la gestione ottimizzata della memoria e il trasferimento accelerato dei dati.

Servendo il modello di ragionamento open source DeepSeek-R1 671B su NVIDIA GB200 NVL72, NVIDIA Dynamo ha aumentato il numero di richieste servite fino a 30 volte, rendendola la soluzione ideale per le fabbriche IA che desiderano operare al costo più basso possibile per massimizzare la generazione di entrate da token.

NVIDIA Dynamo supporta tutti i principali backend di inferenza IA e offre ottimizzazioni specifiche per i modelli linguistici di grandi dimensioni (LLM), come il serving disaggregato, l'accelerazione e la scalabilità dei modelli di ragionamento IA al costo minimo e con la massima efficienza. Sarà supportata come NVIDIA AI Enterprise in una versione futura.

Che cosa è l'inferenza distribuita?

L'inferenza distribuita è il processo di esecuzione dell'inferenza dei modelli IA su più dispositivi o nodi di calcolo per massimizzare il throughput parallelizzando i calcoli. 

Questo approccio consente una scalabilità efficiente per applicazioni IA su larga scala, come l'IA generativa, distribuendo i carichi di lavoro su GPU o infrastruttura cloud. L'inferenza distribuita migliora le prestazioni generali e l'utilizzo delle risorse consentendo agli utenti di ottimizzare la latenza e il throughput per i requisiti univoci di ogni carico di lavoro.

Caratteristiche

Scopri le funzionalità di NVIDIA Dynamo

Icona di servizio disaggregato

Servizio disaggregato

Separa le fasi di contesto (pre-riempimento) e generazione (decodifica) LLM su distinte GPU, consentendo un parallelismo dei modelli su misura e l'allocazione indipendente delle GPU per aumentare le richieste servite per GPU.

Icona GPU Planner

GPU Planner

Monitora la capacità della GPU in ambienti di inferenza distribuita e assegna dinamicamente i lavoratori GPU nelle fasi di contesto e generazione per risolvere i colli di bottiglia e ottimizzare le prestazioni.

Smart Router

Smart Router

I percorsi (route) inferiscono il traffico in modo efficiente, riducendo al minimo i costosi ricalcolo delle richieste ripetute o sovrapposte per preservare le risorse di calcolo e garantire al contempo una distribuzione bilanciata del carico su flotte di GPU di grandi dimensioni.

Icona file

NIXL Libreria di comunicazione a bassa latenza

Accelera il movimento dei dati nelle impostazioni di inferenza distribuita, semplificando al contempo le complessità di trasferimento su diversi hardware, tra cui GPU, CPU, reti e storage.

Vantaggi

I vantaggi di NVIDIA Dynamo

Icona di scalabilità

Scala facilmente da una GPU a migliaia di GPU

Semplifica e automatizza la configurazione dei cluster GPU con strumenti pre-costruiti e di facile distribuzione e abilita l'autoscaling dinamico con metriche specifiche LLM in tempo reale, evitando l'over-provisioning o l'under-provisioning delle risorse GPU.

Icona di servizio

Aumenta la capacità del servizio di inferenza riducendo al contempo i costi

Sfrutta le ottimizzazioni avanzate dei servizi di inferenza LLM, come il servizio disaggregato, per aumentare il numero di richieste di inferenza servite senza compromettere l'esperienza utente.

Icona della casella di controllo

Proteggi la tua infrastruttura IA per il futuro ed evita costose migrazioni

Il design aperto e modulare consente di scegliere facilmente i componenti di inferenza che si adattano alle tue esigenze specifiche, garantendo la compatibilità con lo stack IA esistente ed evitando costosi progetti di migrazione.

Icona del processo iterativo

Accelera i tempi di distribuzione di nuovi modelli IA in produzione

Il supporto di NVIDIA Dynamo, per tutti i principali framework, tra cui TensorRT-LLM, vLLM, SGLang, PyTorch e molto altro ancora, garantisce la possibilità di distribuire rapidamente nuovi modelli di IA generativa, a prescindere dal loro backend.

Accelera l'inferenza distribuita

NVIDIA Dynamo è completamente open source e offre completa trasparenza e flessibilità. Distribuisci NVIDIA Dynamo, contribuisci alla sua crescita e integralo perfettamente nello stack esistente.

 Dai un'occhiata su GitHub e iscriviti alla community!

Sviluppa

Per le persone che desiderano accedere al codice open source di Triton Inference Server per lo sviluppo.

Sviluppa

Per le persone che desiderano accedere gratuitamente ai container Triton Inference Server per lo sviluppo.

Sperimenta

Accedi all'infrastruttura ospitata da NVIDIA e ai laboratori pratici guidati che includono istruzioni e esempi passo-passo, disponibili gratuitamente su NVIDIA LaunchPad.

Distribuisci

Ottieni una licenza gratuita di produzione per provare NVIDIA AI Enterprise per 90 giorni utilizzando la tua infrastruttura esistente.  

Casi d'uso

Distribuzione dell'IA con NVIDIA Dynamo

Scopri come puoi promuovere l'innovazione con NVIDIA Dynamo.

Servire modelli di ragionamento

I modelli di ragionamento generano più token per risolvere problemi complessi, aumentando i costi di inferenza. NVIDIA Dynamo ottimizza questi modelli con funzionalità come il servizio disaggregato. Questo approccio separa le fasi di pre-riempimento e decodifica su GPU distinte, consentendo ai team di inferenza IA di ottimizzare ogni fase in modo indipendente. Il risultato è un migliore utilizzo delle risorse, un numero maggiore di query servite per GPU  e costi di inferenza inferiori.

Servire modelli di ragionamento IA

Testimonianze dei clienti

Scopri cosa hanno da dire i leader di settore su NVIDIA Dynamo

Cohere

Cohere

"La scalabilità dei modelli IA avanzati richiede una sofisticata programmazione multi-GPU, un coordinamento semplice e librerie di comunicazione a bassa latenza che trasferiscono facilmente i contesti di ragionamento su memoria e storage. Ci aspettiamo che Dynamo ci aiuti a offrire un'esperienza utente di prim'ordine ai nostri clienti aziendali".  Saurabh Baji, Vice Presidente Senior dell'Ingegneria presso Cohere

Perplexity

Perplexity AI

"Gestiamo centinaia di milioni di richieste al mese, ci affidiamo alle GPU e al software di inferenza di NVIDIA per offrire le prestazioni, l'affidabilità e la scalabilità che la nostra azienda e i nostri utenti esigono." Non vediamo l'ora di sfruttare Dynamo e le sue funzionalità di servizio distribuito migliorate per ottenere ancora più efficienze di inferenza e soddisfare le esigenze di calcolo dei nuovi modelli di ragionamento IA". Denis Yarats, CTO di Perplexity AI.

together.ai

Together AI

"Una scalabilità conveniente dei modelli di ragionamento richiede nuove tecniche di inferenza avanzate, tra cui il servizio disaggregato e il routing consapevole del contesto. Together AI offre prestazioni leader di settore utilizzando il nostro motore di inferenza proprietario. L'apertura e la modularità di Dynamo ci consentiranno di collegare facilmente i suoi componenti al nostro motore per soddisfare un numero maggiore di richieste e ottimizzare al contempo l'utilizzo delle risorse, massimizzando l'investimento nel calcolo accelerato. " Ce Zhang, CTO di Together AI.

Cohere

Cohere

"La scalabilità dei modelli IA avanzati richiede una sofisticata programmazione multi-GPU, un coordinamento semplice e librerie di comunicazione a bassa latenza che trasferiscono facilmente i contesti di ragionamento su memoria e storage. Ci aspettiamo che NVIDIA Dynamo ci aiuti a offrire un'esperienza utente di prim'ordine ai nostri clienti aziendali".  Saurabh Baji, Vice Presidente Senior dell'Ingegneria presso Cohere

Perplexity

Perplexity AI

"Gestiamo centinaia di milioni di richieste al mese, ci affidiamo alle GPU e al software di inferenza di NVIDIA per offrire le prestazioni, l'affidabilità e la scalabilità che la nostra azienda e i nostri utenti esigono." Non vediamo l'ora di sfruttare NVIDIA Dynamo e le sue funzionalità di servizio distribuito migliorate per ottenere ancora più efficienze di inferenza e soddisfare le esigenze di calcolo dei nuovi modelli di ragionamento IA". Denis Yarats, CTO di Perplexity AI.

together.ai

Together AI

"Una scalabilità conveniente dei modelli di ragionamento richiede nuove tecniche di inferenza avanzate, tra cui il servizio disaggregato e il routing consapevole del contesto. Together AI offre prestazioni leader di settore utilizzando il nostro motore di inferenza proprietario. L'apertura e la modularità di NVIDIA Dynamo ci consentiranno di collegare facilmente i suoi componenti al nostro motore per soddisfare un numero maggiore di richieste e ottimizzare al contempo l'utilizzo delle risorse, massimizzando l'investimento nel calcolo accelerato".  Ce Zhang, CTO di Together AI.

Utilizzatori

Principali utilizzatori in tutti i settori

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
Infosys
Intelligent Voice
NIO
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Risorse

Le ultime novità su NVIDIA Inference

Scopri le ultime notizie

Scopri le ultime notizie

Leggi gli ultimi aggiornamenti e annunci sull'inferenza per NVIDIA Dynamo Inference Server.

Esplora i blog tecnici

Esplora i blog tecnici

Leggi le istruzioni tecniche su come iniziare a utilizzare l'inferenza.

Approfondisci

Approfondisci

Ottieni consigli e le best practice per la distribuzione, l'esecuzione e la scalabilità dei modelli IA per l'inferenza per l'IA generativa, LLM, i sistemi di raccomandazione, la visione artificiale e molto altro ancora.

Prossimi passi

Pronti per iniziare?

Scarica su GitHub e iscriviti alla community!

decorativo

Per gli sviluppatori

Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare con NVIDIA Dynamo, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.

decorativo

Contattaci

Parla con uno specialista di prodotto NVIDIA per passare dal progetto pilota alla produzione grazie alla sicurezza, alla stabilità delle API e al supporto di NVIDIA AI Enterprise.

Leggi il comunicato stampa | Leggi il blog tecnico

Scopri le ultime notizie

Scopri le ultime notizie

Leggi gli ultimi aggiornamenti e annunci sull'inferenza per Dynamo Inference Server.

Esplora i blog tecnici

Esplora i blog tecnici

Leggi le istruzioni tecniche su come iniziare a utilizzare l'inferenza.

Approfondisci

Approfondisci

Ottieni consigli e le best practice per la distribuzione, l'esecuzione e la scalabilità dei modelli IA per l'inferenza per l'IA generativa, LLM, i sistemi di raccomandazione, la visione artificiale e molto altro ancora.

Select Location
Middle East