IA fisica
Accelera lo sviluppo dell'IA fisica con i modelli di base del mondo.
Panoramica
NVIDIA Cosmos™ è una piattaforma di modelli generativi di base del mondo (WFM) all'avanguardia, tokenizzatori avanzati, guardrail e una pipeline di elaborazione e gestione dei dati accelerata, progettati per accelerare lo sviluppo di sistemi con IA fisica come veicoli autonomi (AV) e robot.
Vantaggi
Cosmos fornisce agli sviluppatori un accesso aperto e facile a modelli di base del mondo e pipeline di dati altamente performanti, rendendo lo sviluppo dell'IA fisica accessibile a tutti.
Modelli
Una famiglia di modelli pre-addestrati progettati appositamente per generare video e stati del mondo consapevoli della fisica per lo sviluppo dell'IA fisica.
Scopri di più sulle architetture dei modelli, le risorse di sviluppo e la disponibilità qui.
NVIDIA sta collaborando con l’ecosistema della robotica e dei veicoli autonomi per sviluppare una serie di benchmark che riflettano i requisiti unici delle applicazioni di IA fisica a partire dai modelli di base del mondo.
I benchmark di Cosmos sono progettati per valutare la prossima generazione di modelli di mondo con criteri avanzati come la coerenza 3D e l'allineamento con la fisica, essenziali per la robotica e i sistemi autonomi.
Rispetto al VideoLDM (VLDM), un modello generativo di base per la sintesi video, i WFM di Cosmos eccellono in termini di precisione geometrica con minori errori di Sampson e una migliore stabilità temporale. I benchmark valutano anche i WFM basati su comportamenti fisici come la gravità e la dinamica di collisione.
I WFM di Cosmos superano costantemente i VLDM in termini di coerenza visiva, ottenendo tassi di successo nella stima delle pose fino a 14 volte superiori. Mentre i modelli di diffusione offrono una maggiore fedeltà immediata, i modelli autoregressivi garantiscono prestazioni eccellenti per i modelli personalizzati.
Scopri come gli sviluppatori di robotica, veicoli autonomi e IA visiva possono utilizzare Cosmos per migliorare il loro lavoro.
Cosmos aiuta gli sviluppatori a creare set di dati su misura per l'addestramento dei loro modelli di IA. Che si tratti di filmati di strade innevate per le auto a guida autonoma o di scenari di magazzini affollati destinati alla robotica, Cosmos semplifica l'etichettatura e la ricerca dei video grazie alla comprensione dei modelli spaziali e temporali, facilitando la preparazione dei dati di addestramento.
Ciò consente di risparmiare tempo e ridurre i costi e contribuisce a fornire modelli di IA altamente rilevanti e di impatto per l'uso nel mondo reale.
Gli sviluppatori possono sfruttare i dati di simulazione 3D per generare video sintetici fotorealistici. Utilizzando Omniverse, sono in grado di creare ambienti 3D che rappresentano le loro esigenze di addestramento dei modelli. Successivamente, possono generare video fotorealistici controllati con precisione da scenari 3D per ottenere set di dati sintetici altamente personalizzati.
I modelli di base del mondo Cosmos, perfezionati per la previsione video condizionata dall’azione, consentono una formazione e una valutazione scalabili e riproducibili di modelli di policy, che definiscono strategie per i sistemi di IA fisica, mappando gli stati sulle azioni. Gli sviluppatori utilizzano questi modelli per ridurre la dipendenza da test rischiosi nel mondo reale o simulazioni complesse per attività come la navigazione tra gli ostacoli e la manipolazione degli oggetti, ottimizzando le prestazioni e garantendo l’affidabilità in applicazioni reali come la robotica e i veicoli autonomi.
Cosmos introduce l’intelligenza predittiva avanzata nell’IA fisica, permettendo ai sistemi di anticipare gli scenari futuri e prendere decisioni più accorte. Attraverso la generazione di previsioni, che genera video predittivi basati su dati passati e prompt di testo, Cosmos consente all’IA fisica di selezionare azioni ottimali, migliorando l’efficienza, l’adattabilità e la sicurezza in ambienti dinamici.
Grazie a NVIDIA Omniverse, gli sviluppatori possono simulare molteplici risultati di Cosmos per valutare scenari in tempo reale, accelerando il processo decisionale e ottimizzando i sistemi basati sull’IA come la robotica e i veicoli autonomi. Insieme, Cosmos e Omniverse consentono ai modelli di IA fisica di esplorare tutti i possibili risultati futuri, selezionando il percorso migliore per una maggiore precisione e affidabilità in ambienti complessi.
Gli sviluppatori di modelli dei settori della robotica, dei veicoli autonomi e dell'IA visiva utilizzano Cosmos per accelerare lo sviluppo dell’IA fisica.
Gli sviluppatori di IA fisica possono iniziare subito con i modelli di base del mondo di Cosmos disponibili sul catalogo NGC e Hugging Face. Cosmos fornisce anche una pipeline completa per mettere a punto i modelli di base con NVIDIA NeMo. Gli sviluppatori possono utilizzare il tokenizzatore di Cosmos da /NVIDIA/cosmos-tokenizer su GitHub e Hugging Face.
I world foundation model di Cosmos sono disponibili sotto una NVIDIA Open Model License per tutti.
Sì, Cosmos supporta l'ottimizzazione con NeMo. Puoi addestrare e mettere a punto in modo efficiente i modelli con tecniche popolari come LoRA e l'apprendimento per rinforzo da feedback umano (RLHF). Puoi anche scegliere PyTorch per continuare ad addestrare i WFM utilizzando i tuoi set di dati.
Sì, puoi sfruttare Cosmos per costruire da zero con il tuo modello di base o l'architettura del modello preferito. Puoi iniziare utilizzando NeMo Curator per la pre-elaborazione dei dati video. Quindi comprimere e decodificare i dati con il Cosmos tokenizer e, una volta elaborati i dati, puoi addestrare o perfezionare il modello utilizzando NVIDIA NeMo.
Usando i microservizi NIM, puoi integrare facilmente i tuoi modelli di IA fisica nelle applicazioni su cloud, data center e workstation.
Puoi anche utilizzare NVIDIA DGX Cloud per addestrare i modelli di IA e distribuirli ovunque su larga scala.
Cosmos e Cosmos Nemotron sono entrambe famiglie di modelli NVIDIA progettati per elaborare e interpretare immagini dal mondo fisico.
I modelli Cosmos sono modelli di base del mondo che si concentrano sulla previsione e la generazione di video consapevoli della fisica, aiutando a simulare e comprendere gli stati futuri degli ambienti virtuali. Al contrario, i modelli Cosmos Nemotron sono modelli di linguaggio di visione specializzati nella ricerca e nella sintesi di immagini e video, che permettono all’IA di interpretare e rispondere a dati visivi sia fisici che virtuali.
Insieme, si completano a vicenda per consentire capacità avanzate di IA basate sulla comprensione visiva.