Inferenza con AI

NVIDIA Dynamo

Scala e fornisci l'IA generativa, velocemente.

Inizia

Leggi il comunicato stampa | Leggi il blog tecnico

Panoramica
Caratteristiche
Vantaggi
Opzioni per iniziare
Casi uso
Testimonianze dei clienti
Risorse
Prossimi passi

Panoramica

Panoramica
Caratteristiche
Vantaggi
Opzioni per iniziare
Casi uso
Testimonianze dei clienti
Risorse
Prossimi passi

Inizia

Panoramica

Inferenza distribuita a bassa latenza
per l'IA generativa

NVIDIA Dynamo è un framework di inferenza modulare open source per la fornitura di modelli di IA generativa in ambienti distribuiti. Consente la scalabilità semplice dei carichi di lavoro di inferenza su flotte di GPU di grandi dimensioni con la pianificazione dinamica delle risorse, il routing intelligente delle richieste, la gestione ottimizzata della memoria e il trasferimento accelerato dei dati.

Servendo il modello di ragionamento open source DeepSeek-R1 671B su NVIDIA GB200 NVL72, NVIDIA Dynamo ha aumentato il numero di richieste servite fino a 30 volte, rendendola la soluzione ideale per le fabbriche IA che desiderano operare al costo più basso possibile per massimizzare la generazione di entrate da token.

NVIDIA Dynamo supporta tutti i principali backend di inferenza IA e offre ottimizzazioni specifiche per i modelli linguistici di grandi dimensioni (LLM), come il serving disaggregato, l'accelerazione e la scalabilità dei modelli di ragionamento IA al costo minimo e con la massima efficienza. Sarà supportata come NVIDIA AI Enterprise in una versione futura.

Che cosa è l'inferenza distribuita?

L'inferenza distribuita è il processo di esecuzione dell'inferenza dei modelli IA su più dispositivi o nodi di calcolo per massimizzare il throughput parallelizzando i calcoli.

Questo approccio consente una scalabilità efficiente per applicazioni IA su larga scala, come l'IA generativa, distribuendo i carichi di lavoro su GPU o infrastruttura cloud. L'inferenza distribuita migliora le prestazioni generali e l'utilizzo delle risorse consentendo agli utenti di ottimizzare la latenza e il throughput per i requisiti univoci di ogni carico di lavoro.

Caratteristiche

Scopri le funzionalità di NVIDIA Dynamo

Servizio disaggregato

Separa le fasi di contesto (pre-riempimento) e generazione (decodifica) LLM su distinte GPU, consentendo un parallelismo dei modelli su misura e l'allocazione indipendente delle GPU per aumentare le richieste servite per GPU.

GPU Planner

Monitora la capacità della GPU in ambienti di inferenza distribuita e assegna dinamicamente i lavoratori GPU nelle fasi di contesto e generazione per risolvere i colli di bottiglia e ottimizzare le prestazioni.

Smart Router

I percorsi (route) inferiscono il traffico in modo efficiente, riducendo al minimo i costosi ricalcolo delle richieste ripetute o sovrapposte per preservare le risorse di calcolo e garantire al contempo una distribuzione bilanciata del carico su flotte di GPU di grandi dimensioni.

NIXL Libreria di comunicazione a bassa latenza

Accelera il movimento dei dati nelle impostazioni di inferenza distribuita, semplificando al contempo le complessità di trasferimento su diversi hardware, tra cui GPU, CPU, reti e storage.

Vantaggi

I vantaggi di NVIDIA Dynamo

Scala facilmente da una GPU a migliaia di GPU

Semplifica e automatizza la configurazione dei cluster GPU con strumenti pre-costruiti e di facile distribuzione e abilita l'autoscaling dinamico con metriche specifiche LLM in tempo reale, evitando l'over-provisioning o l'under-provisioning delle risorse GPU.

Aumenta la capacità del servizio di inferenza riducendo al contempo i costi

Sfrutta le ottimizzazioni avanzate dei servizi di inferenza LLM, come il servizio disaggregato, per aumentare il numero di richieste di inferenza servite senza compromettere l'esperienza utente.

Proteggi la tua infrastruttura IA per il futuro ed evita costose migrazioni

Il design aperto e modulare consente di scegliere facilmente i componenti di inferenza che si adattano alle tue esigenze specifiche, garantendo la compatibilità con lo stack IA esistente ed evitando costosi progetti di migrazione.

Accelera i tempi di distribuzione di nuovi modelli IA in produzione

Il supporto di NVIDIA Dynamo, per tutti i principali framework, tra cui TensorRT-LLM, vLLM, SGLang, PyTorch e molto altro ancora, garantisce la possibilità di distribuire rapidamente nuovi modelli di IA generativa, a prescindere dal loro backend.

Accelera l'inferenza distribuita

NVIDIA Dynamo è completamente open source e offre completa trasparenza e flessibilità. Distribuisci NVIDIA Dynamo, contribuisci alla sua crescita e integralo perfettamente nello stack esistente.

Dai un'occhiata su GitHub e iscriviti alla community!

Inizia

Sviluppa

Per le persone che desiderano accedere al codice open source di Triton Inference Server per lo sviluppo.

Codice di accesso

Sviluppa

Per le persone che desiderano accedere gratuitamente ai container Triton Inference Server per lo sviluppo.

Ottieni Container

Sperimenta

Accedi all'infrastruttura ospitata da NVIDIA e ai laboratori pratici guidati che includono istruzioni e esempi passo-passo, disponibili gratuitamente su NVIDIA LaunchPad.

Accedi ai laboratori pratici

Distribuisci

Ottieni una licenza gratuita di produzione per provare NVIDIA AI Enterprise per 90 giorni utilizzando la tua infrastruttura esistente.

Richiedi una licenza di 90 giorni

Casi d'uso

Distribuzione dell'IA con NVIDIA Dynamo

Scopri come puoi promuovere l'innovazione con NVIDIA Dynamo.

Servire modelli di ragionamento
Inferenza distribuita
Agenti IA scalabili
Generazione di codice

Servire modelli di ragionamento

I modelli di ragionamento generano più token per risolvere problemi complessi, aumentando i costi di inferenza. NVIDIA Dynamo ottimizza questi modelli con funzionalità come il servizio disaggregato. Questo approccio separa le fasi di pre-riempimento e decodifica su GPU distinte, consentendo ai team di inferenza IA di ottimizzare ogni fase in modo indipendente. Il risultato è un migliore utilizzo delle risorse, un numero maggiore di query servite per GPU e costi di inferenza inferiori.

Inferenza distribuita

Poiché i modelli IA diventano troppo grandi per adattarsi a un singolo nodo, servirli in modo efficiente diventa una sfida. L'inferenza distribuita richiede la divisione dei modelli su più nodi, aggiungendo complessità nell'orchestrazione, nella scalabilità e nella comunicazione. Assicurarsi che questi nodi funzionino come unità coesa, soprattutto nei carichi di lavoro dinamici, richiede una gestione attenta. NVIDIA Dynamo semplifica questo processo fornendo funzionalità predefinite su Kubernetes, gestendo facilmente la pianificazione, la scalabilità e il servizio in modo che tu possa concentrarti sulla distribuzione dell'IA anziché sulla gestione dell'infrastruttura.

Agenti IA scalabili

Gli agenti IA si basano su più modelli, LLM, sistemi di recupero e strumenti specializzati, che lavorano sincronizzati in tempo reale. Scalare questi agenti è una sfida complessa che richiede una pianificazione intelligente delle GPU, una gestione efficiente della cache KV e una comunicazione a latenza bassissima per mantenere la reattività.
NVIDIA Dynamo semplifica questo processo con il planner intelligente GPU integrato, il router intelligente e la libreria di comunicazione a bassa latenza, rendendo la scalabilità degli agenti IA semplice ed efficiente.

Generazione di codice

La generazione di codice richiede spesso un perfezionamento iterativo per regolare i prompt, chiarire i requisiti o eseguire il debug degli output in base alle risposte del modello. Questo spostarsi avanti e indietro richiede un nuovo calcolo del contesto a ogni turno dell'utente, aumentando i costi di inferenza. NVIDIA Dynamo ottimizza questo processo consentendo il riutilizzo e il trasferimento di contenuto in memoria efficiente, riducendo al minimo i costosi ricalcoli e riducendo i costi generali di inferenza.

Testimonianze dei clienti

Scopri cosa hanno da dire i leader di settore su NVIDIA Dynamo

Altre storie dei clienti

Cohere

"La scalabilità dei modelli IA avanzati richiede una sofisticata programmazione multi-GPU, un coordinamento semplice e librerie di comunicazione a bassa latenza che trasferiscono facilmente i contesti di ragionamento su memoria e storage. Ci aspettiamo che Dynamo ci aiuti a offrire un'esperienza utente di prim'ordine ai nostri clienti aziendali". Saurabh Baji, Vice Presidente Senior dell'Ingegneria presso Cohere

Perplexity AI

"Gestiamo centinaia di milioni di richieste al mese, ci affidiamo alle GPU e al software di inferenza di NVIDIA per offrire le prestazioni, l'affidabilità e la scalabilità che la nostra azienda e i nostri utenti esigono." Non vediamo l'ora di sfruttare Dynamo e le sue funzionalità di servizio distribuito migliorate per ottenere ancora più efficienze di inferenza e soddisfare le esigenze di calcolo dei nuovi modelli di ragionamento IA". Denis Yarats, CTO di Perplexity AI.

Together AI

"Una scalabilità conveniente dei modelli di ragionamento richiede nuove tecniche di inferenza avanzate, tra cui il servizio disaggregato e il routing consapevole del contesto. Together AI offre prestazioni leader di settore utilizzando il nostro motore di inferenza proprietario. L'apertura e la modularità di Dynamo ci consentiranno di collegare facilmente i suoi componenti al nostro motore per soddisfare un numero maggiore di richieste e ottimizzare al contempo l'utilizzo delle risorse, massimizzando l'investimento nel calcolo accelerato. " Ce Zhang, CTO di Together AI.

Cohere

"La scalabilità dei modelli IA avanzati richiede una sofisticata programmazione multi-GPU, un coordinamento semplice e librerie di comunicazione a bassa latenza che trasferiscono facilmente i contesti di ragionamento su memoria e storage. Ci aspettiamo che NVIDIA Dynamo ci aiuti a offrire un'esperienza utente di prim'ordine ai nostri clienti aziendali". Saurabh Baji, Vice Presidente Senior dell'Ingegneria presso Cohere

Perplexity AI

"Gestiamo centinaia di milioni di richieste al mese, ci affidiamo alle GPU e al software di inferenza di NVIDIA per offrire le prestazioni, l'affidabilità e la scalabilità che la nostra azienda e i nostri utenti esigono." Non vediamo l'ora di sfruttare NVIDIA Dynamo e le sue funzionalità di servizio distribuito migliorate per ottenere ancora più efficienze di inferenza e soddisfare le esigenze di calcolo dei nuovi modelli di ragionamento IA". Denis Yarats, CTO di Perplexity AI.

Together AI

"Una scalabilità conveniente dei modelli di ragionamento richiede nuove tecniche di inferenza avanzate, tra cui il servizio disaggregato e il routing consapevole del contesto. Together AI offre prestazioni leader di settore utilizzando il nostro motore di inferenza proprietario. L'apertura e la modularità di NVIDIA Dynamo ci consentiranno di collegare facilmente i suoi componenti al nostro motore per soddisfare un numero maggiore di richieste e ottimizzare al contempo l'utilizzo delle risorse, massimizzando l'investimento nel calcolo accelerato". Ce Zhang, CTO di Together AI.

Utilizzatori

Principali utilizzatori in tutti i settori

Clienti
Integrazioni dell'ecosistema

Risorse

Le ultime novità su NVIDIA Inference

Blog
Sessioni
Formazione
Video

Scopri le ultime notizie

Leggi gli ultimi aggiornamenti e annunci sull'inferenza per NVIDIA Dynamo Inference Server.

Vedi tutti i blog sull'inferenza

Esplora i blog tecnici

Leggi le istruzioni tecniche su come iniziare a utilizzare l'inferenza.

Vedi tutti i blog tecnici sull'inferenza LLM

Approfondisci

Ottieni consigli e le best practice per la distribuzione, l'esecuzione e la scalabilità dei modelli IA per l'inferenza per l'IA generativa, LLM, i sistemi di raccomandazione, la visione artificiale e molto altro ancora.

Leggi ora

Visualizza tutti i blog

IA generativa e modelli linguistici di grandi dimensioni

Distribuzione, ottimizzazione e benchmarking di LLM

Scopri come servire gli LLM in modo efficiente con le istruzioni dettagliate. Mostreremo come distribuire facilmente un LLM su più backend e confrontare le loro prestazioni, oltre a come ottimizzare le configurazioni di distribuzione per prestazioni ottimali.

Guarda la sessione GTC on-demand

Casi d'uso dell'IA dallo sviluppo alla produzione

Sposta i casi d'uso dell'IA aziendale dallo sviluppo alla produzione

Scopri che cos'è l'inferenza IA, come si adatta alla strategia di distribuzione dell'IA della tua azienda, quali sono le principali sfide nella distribuzione dei casi d'uso dell'IA di livello aziendale, perché è necessaria una soluzione di inferenza IA full-stack per affrontare queste sfide, quali sono i componenti principali di una piattaforma full-stack e come distribuire la tua prima soluzione di inferenza IA.

Guarda la sessione on-demand

Sfrutta la potenza delle soluzioni di inferenza IA pronte per il cloud

Scopri come la piattaforma di inferenza NVIDIA AI si integra perfettamente con i principali fornitori di servizi cloud, semplificando la distribuzione e accelerando il lancio di casi d'uso dell'IA basati su LLM.

Guarda la sessione on-demand

Visualizza altre sessioni

Guida rapida

Sei nuovo su NVIDIA Dynamo e vuoi distribuire rapidamente il tuo modello? Utilizza questa guida rapida per iniziare il tuo percorso con NVIDIA Dynamo.

Leggi ora

Tutorial

Iniziare a utilizzare NVIDIA Dynamo può far sorgere molte domande. Esplora questo repository per familiarizzare con le funzionalità di NVIDIA Dynamo, e trovare guide ed esempi che possono facilitare la migrazione.

Leggi ora

NVIDIA LaunchPad

Nei laboratori pratici, prova l'IA veloce e scalabile utilizzando NVIDIA Dynamo. Sarai in grado di sbloccare immediatamente i vantaggi dell'infrastruttura di elaborazione accelerata di NVIDIA e scalare i carichi di lavoro IA.

Esplora ora

Perché Triton sta semplificando l'inferenza

I 5 motivi principali per cui NVIDIA Dynamo sta semplificando l'inferenza

NVIDIA Dynamo Inference Server semplifica la distribuzione di modelli IA su larga scala in produzione, consentendo ai team di distribuire modelli IA addestrati da qualsiasi framework da una piattaforma di storage locale o cloud su qualsiasi infrastruttura basata su GPU o CPU.

Guarda ora

Triton per la semplice distribuzione della pipeline di diffusione stabile

Distribuisci la pipeline di diffusione stabile di HuggingFace con NVIDIA Dynamo

Questo video mostra la distribuzione della pipeline di diffusione stabile disponibile tramite la libreria di diffusori HuggingFace. Utilizziamo NVIDIA Dynamo Inference Server per distribuire ed eseguire la pipeline.

Guarda ora

Inizia a utilizzare NVIDIA Triton Inference Server

Inizia a utilizzare NVIDIA Dynamo Inference Server

NVIDIA Dynamo è una soluzione di inferenza open source che standardizza la distribuzione dei modelli e consente l'IA veloce e scalabile in produzione. Grazie alle sue numerose funzionalità, una domanda naturale è, da dove posso iniziare? Guarda per scoprirlo.

Guarda ora

Visualizza altri video

Prossimi passi

Pronti per iniziare?

Scarica su GitHub e iscriviti alla community!

Per gli sviluppatori

Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare con NVIDIA Dynamo, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.

Inizia a sviluppare

Contattaci

Parla con uno specialista di prodotto NVIDIA per passare dal progetto pilota alla produzione grazie alla sicurezza, alla stabilità delle API e al supporto di NVIDIA AI Enterprise.

Contattaci

Scopri come Snapchat sta utilizzando Triton per migliorare l'esperienza di acquisto

Scopri come Triton Model Analyzer ottimizza la distribuzione dei modelli

Leggi la guida all'analizzatore delle prestazioni di IA generativa

Leggi come servire le pipeline di modelli su Triton con modelli di ensemble

Distribuisci su Amazon SageMaker

Distribuisci su Google Vertex AI

Distribuisci su Azure ML Studio

Distribuisci su Oracle Cloud

Leggi il comunicato stampa | Leggi il blog tecnico

Blog
Sessioni
Formazione
Video

Scopri le ultime notizie

Leggi gli ultimi aggiornamenti e annunci sull'inferenza per Dynamo Inference Server.

Vedi tutti i blog di Dynamo

Esplora i blog tecnici

Leggi le istruzioni tecniche su come iniziare a utilizzare l'inferenza.

Vedi tutti i blog tecnici sull'inferenza LLM

Guida rapida

Sei nuovo su Dynamo e vuoi distribuire rapidamente il tuo modello? Utilizza questa guida rapida per iniziare il tuo percorso con Dynamo.

Leggi ora

Tutorial

Iniziare a utilizzare Dynamo può far sorgere molte domande. Esplora questo repository per familiarizzare con le funzionalità di Dynamo e trovare guide ed esempi che possono facilitare la migrazione.

Leggi ora

NVIDIA LaunchPad

Esplora ora

Visualizza tutti i blog

I 5 motivi principali per cui Dynamo sta semplificando l'inferenza

Guarda ora

Distribuisci la pipeline di diffusione stabile di HuggingFace con Dynamo

Guarda ora

Inizia a utilizzare NVIDIA Dynamo Inference Server

Dynamo Inference Server è una soluzione di inferenza open source che standardizza la distribuzione dei modelli e consente l'IA veloce e scalabile nella produzione. Grazie alle sue numerose funzionalità, una domanda naturale è, da dove posso iniziare? Guarda per scoprirlo.

Guarda ora

Visualizza tutti i blog

NVIDIA Dynamo

Panoramica

Inferenza distribuita a bassa latenza per l'IA generativa

Che cosa è l'inferenza distribuita?

Caratteristiche

Scopri le funzionalità di NVIDIA Dynamo

Servizio disaggregato

GPU Planner

Smart Router

NIXL Libreria di comunicazione a bassa latenza

Vantaggi

I vantaggi di NVIDIA Dynamo

Scala facilmente da una GPU a migliaia di GPU

Aumenta la capacità del servizio di inferenza riducendo al contempo i costi

Proteggi la tua infrastruttura IA per il futuro ed evita costose migrazioni

Accelera i tempi di distribuzione di nuovi modelli IA in produzione

Accelera l'inferenza distribuita

Sviluppa

Sviluppa

Sperimenta

Distribuisci

Casi d'uso

Distribuzione dell'IA con NVIDIA Dynamo

Servire modelli di ragionamento

Agenti IA scalabili

Generazione di codice

Testimonianze dei clienti

Scopri cosa hanno da dire i leader di settore su NVIDIA Dynamo

Cohere

Perplexity AI

Together AI

Cohere

Perplexity AI

Together AI

Utilizzatori

Principali utilizzatori in tutti i settori

Risorse

Le ultime novità su NVIDIA Inference

Scopri le ultime notizie

Esplora i blog tecnici

Approfondisci

Prossimi passi

Pronti per iniziare?

Per gli sviluppatori

Contattaci

Scopri le ultime notizie

Esplora i blog tecnici

Approfondisci

Inferenza distribuita a bassa latenza
per l'IA generativa