Inferenza con AI
Scala e fornisci l'IA generativa, velocemente.
NVIDIA Dynamo è un framework di inferenza modulare open source per la fornitura di modelli di IA generativa in ambienti distribuiti. Consente la scalabilità semplice dei carichi di lavoro di inferenza su flotte di GPU di grandi dimensioni con la pianificazione dinamica delle risorse, il routing intelligente delle richieste, la gestione ottimizzata della memoria e il trasferimento accelerato dei dati.
Servendo il modello di ragionamento open source DeepSeek-R1 671B su NVIDIA GB200 NVL72, NVIDIA Dynamo ha aumentato il numero di richieste servite fino a 30 volte, rendendola la soluzione ideale per le fabbriche IA che desiderano operare al costo più basso possibile per massimizzare la generazione di entrate da token.
NVIDIA Dynamo supporta tutti i principali backend di inferenza IA e offre ottimizzazioni specifiche per i modelli linguistici di grandi dimensioni (LLM), come il serving disaggregato, l'accelerazione e la scalabilità dei modelli di ragionamento IA al costo minimo e con la massima efficienza. Sarà supportata come NVIDIA AI Enterprise in una versione futura.
Separa le fasi di contesto (pre-riempimento) e generazione (decodifica) LLM su distinte GPU, consentendo un parallelismo dei modelli su misura e l'allocazione indipendente delle GPU per aumentare le richieste servite per GPU.
Monitora la capacità della GPU in ambienti di inferenza distribuita e assegna dinamicamente i lavoratori GPU nelle fasi di contesto e generazione per risolvere i colli di bottiglia e ottimizzare le prestazioni.
I percorsi (route) inferiscono il traffico in modo efficiente, riducendo al minimo i costosi ricalcolo delle richieste ripetute o sovrapposte per preservare le risorse di calcolo e garantire al contempo una distribuzione bilanciata del carico su flotte di GPU di grandi dimensioni.
Accelera il movimento dei dati nelle impostazioni di inferenza distribuita, semplificando al contempo le complessità di trasferimento su diversi hardware, tra cui GPU, CPU, reti e storage.
Semplifica e automatizza la configurazione dei cluster GPU con strumenti pre-costruiti e di facile distribuzione e abilita l'autoscaling dinamico con metriche specifiche LLM in tempo reale, evitando l'over-provisioning o l'under-provisioning delle risorse GPU.
Sfrutta le ottimizzazioni avanzate dei servizi di inferenza LLM, come il servizio disaggregato, per aumentare il numero di richieste di inferenza servite senza compromettere l'esperienza utente.
Il design aperto e modulare consente di scegliere facilmente i componenti di inferenza che si adattano alle tue esigenze specifiche, garantendo la compatibilità con lo stack IA esistente ed evitando costosi progetti di migrazione.
Il supporto di NVIDIA Dynamo, per tutti i principali framework, tra cui TensorRT-LLM, vLLM, SGLang, PyTorch e molto altro ancora, garantisce la possibilità di distribuire rapidamente nuovi modelli di IA generativa, a prescindere dal loro backend.
NVIDIA Dynamo è completamente open source e offre completa trasparenza e flessibilità. Distribuisci NVIDIA Dynamo, contribuisci alla sua crescita e integralo perfettamente nello stack esistente.
Dai un'occhiata su GitHub e iscriviti alla community!
Scopri come puoi promuovere l'innovazione con NVIDIA Dynamo.
I modelli di ragionamento generano più token per risolvere problemi complessi, aumentando i costi di inferenza. NVIDIA Dynamo ottimizza questi modelli con funzionalità come il servizio disaggregato. Questo approccio separa le fasi di pre-riempimento e decodifica su GPU distinte, consentendo ai team di inferenza IA di ottimizzare ogni fase in modo indipendente. Il risultato è un migliore utilizzo delle risorse, un numero maggiore di query servite per GPU e costi di inferenza inferiori.
Scarica su GitHub e iscriviti alla community!
Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare con NVIDIA Dynamo, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.
Parla con uno specialista di prodotto NVIDIA per passare dal progetto pilota alla produzione grazie alla sicurezza, alla stabilità delle API e al supporto di NVIDIA AI Enterprise.