IA fisica

NVIDIA Cosmos

Accelera lo sviluppo dell'IA fisica con i modelli di base del mondo.

Panoramica

Panoramica

Cos'è NVIDIA Cosmos?

NVIDIA Cosmos™ è una piattaforma di modelli generativi di base del mondo (WFM) all'avanguardia, tokenizzatori avanzati, guardrail e una pipeline di elaborazione e gestione dei dati accelerata, progettati per accelerare lo sviluppo di sistemi con IA fisica come veicoli autonomi (AV) e robot.

Modelli di base del mondo Cosmos liberamente a disposizione della comunità di sviluppatori di IA fisica

Modelli all'avanguardia addestrati su milioni di ore di dati video di guida e robotica per democratizzare lo sviluppo dell'IA fisica, disponibili sotto licenza di modello aperto.

Leggi il blog

La piattaforma di modelli di base del mondo per accelerare lo sviluppo dell'IA fisica

La nuova piattaforma NVIDIA Cosmos accelera lo sviluppo di sistemi basati sull'IA fisica come robot e veicoli autonomi.

Leggi il comunicato stampa

Vantaggi

Accelera lo sviluppo dell'IA fisica con i World Foundation Model

Cosmos fornisce agli sviluppatori un accesso aperto e facile a modelli di base del mondo e pipeline di dati altamente performanti, rendendo lo sviluppo dell'IA fisica accessibile a tutti.

Consapevoli della fisica

Suite di modelli video di prima generazione addestrati su 9.000 trilioni di token, tra cui 20 milioni di ore di dati di guida e robotica, che generano video di alta qualità da input multimodali come immagini, testo o video.

Aperto

I WFM e i tokenizzatori di Cosmos sono sottoposti alla NVIDIA Open Model License, che consente agli sviluppatori di tutto il mondo di creare sistemi di IA fisica su larga scala senza costi di ingresso elevati.

Accelera l'elaborazione e la gestione dei dati

Velocizza la gestione dei dati di 20 volte con la pipeline NVIDIA NeMo Curator di CUDA™-X e gli strumenti accelerati con l'intelligenza artificiale NVIDIA per l'elaborazione di oltre 100 PB di dati. Fornisce ottimizzazioni predefinite, riducendo al minimo il costo totale di proprietà (TCO) e accelerando il time-to-market.

Sviluppa modelli personalizzati

Cosmos tokenizer converte i dati visivi in token ad alta fedeltà con una compressione 8 volte migliore e un'elaborazione 12 volte più rapida.

NVIDIA NeMo™ offre un addestramento e un'ottimizzazione accelerati per creare modelli di IA generativa multimodale per l'IA fisica.

Modelli

Modelli di base del mondo NVIDIA Cosmos

Una famiglia di modelli pre-addestrati progettati appositamente per generare video e stati del mondo consapevoli della fisica per lo sviluppo dell'IA fisica.

Scopri di più sulle architetture dei modelli, le risorse di sviluppo e la disponibilità qui.

Famiglia di modelli all'avanguardia

Modelli autoregressivi e di diffusione per la generazione di Text-to-World e Video-to-World, disponibili con dimensioni dei parametri che vanno da 4 a 14 miliardi per soddisfare le varie esigenze.
Modello di upsampling di 12 miliardi di parametri per il perfezionamento dei prompt di testo, per una maggiore precisione e dettaglio negli output generati.
Modello di 7 miliardi di parametri progettato per la decodifica di sequenze video, ottimizzato per le applicazioni di realtà aumentata.

Guardrail incorporati

Pre-guard per filtrare marchi, contenuti NSFW e prompt dannosi.
Post-guard per rimuovere gli scenari discutibili.
Guardrail per sfocare i volti umani.
Filigrane digitali sui video sintetici generati dalle API di anteprima sul catalogo API NVIDIA.

Benchmark

Viaggio verso le prestazioni dell'IA fisica

NVIDIA sta collaborando con l’ecosistema della robotica e dei veicoli autonomi per sviluppare una serie di benchmark che riflettano i requisiti unici delle applicazioni di IA fisica a partire dai modelli di base del mondo.

I benchmark di Cosmos sono progettati per valutare la prossima generazione di modelli di mondo con criteri avanzati come la coerenza 3D e l'allineamento con la fisica, essenziali per la robotica e i sistemi autonomi.

Rispetto al VideoLDM (VLDM), un modello generativo di base per la sintesi video, i WFM di Cosmos eccellono in termini di precisione geometrica con minori errori di Sampson e una migliore stabilità temporale. I benchmark valutano anche i WFM basati su comportamenti fisici come la gravità e la dinamica di collisione.

I WFM di Cosmos superano costantemente i VLDM in termini di coerenza visiva, ottenendo tassi di successo nella stima delle pose fino a 14 volte superiori. Mentre i modelli di diffusione offrono una maggiore fedeltà immediata, i modelli autoregressivi garantiscono prestazioni eccellenti per i modelli personalizzati.

Scenari di utilizzo

Come gli sviluppatori utilizzano NVIDIA Cosmos

Scopri come gli sviluppatori di robotica, veicoli autonomi e IA visiva possono utilizzare Cosmos per migliorare il loro lavoro.

Ricerca di video
3D-to-Real controllabile
Modello di policy
Previsione
Simulazione del Multiverso

Ricerca di video

Cosmos aiuta gli sviluppatori a creare set di dati su misura per l'addestramento dei loro modelli di IA. Che si tratti di filmati di strade innevate per le auto a guida autonoma o di scenari di magazzini affollati destinati alla robotica, Cosmos semplifica l'etichettatura e la ricerca dei video grazie alla comprensione dei modelli spaziali e temporali, facilitando la preparazione dei dati di addestramento.

Ciò consente di risparmiare tempo e ridurre i costi e contribuisce a fornire modelli di IA altamente rilevanti e di impatto per l'uso nel mondo reale.

Inizia subito con la generazione di dati sintetici

Dati sintetici 3D-to-Real controllabili

Gli sviluppatori possono sfruttare i dati di simulazione 3D per generare video sintetici fotorealistici. Utilizzando Omniverse, sono in grado di creare ambienti 3D che rappresentano le loro esigenze di addestramento dei modelli. Successivamente, possono generare video fotorealistici controllati con precisione da scenari 3D per ottenere set di dati sintetici altamente personalizzati.

Scopri di più su NVIDIA Omniverse

Formazione e valutazione del modello di policy

I modelli di base del mondo Cosmos, perfezionati per la previsione video condizionata dall’azione, consentono una formazione e una valutazione scalabili e riproducibili di modelli di policy, che definiscono strategie per i sistemi di IA fisica, mappando gli stati sulle azioni. Gli sviluppatori utilizzano questi modelli per ridurre la dipendenza da test rischiosi nel mondo reale o simulazioni complesse per attività come la navigazione tra gli ostacoli e la manipolazione degli oggetti, ottimizzando le prestazioni e garantendo l’affidabilità in applicazioni reali come la robotica e i veicoli autonomi.

Inizia subito con la formazione e la valutazione del modello di policy

Garantire l’affidabilità e la sicurezza dei sistemi di IA fisica per la robotica e i veicoli autonomi

Previsione

Cosmos introduce l’intelligenza predittiva avanzata nell’IA fisica, permettendo ai sistemi di anticipare gli scenari futuri e prendere decisioni più accorte. Attraverso la generazione di previsioni, che genera video predittivi basati su dati passati e prompt di testo, Cosmos consente all’IA fisica di selezionare azioni ottimali, migliorando l’efficienza, l’adattabilità e la sicurezza in ambienti dinamici.

Inizia subito con la generazione di previsioni

Simulazione del Multiverso

Grazie a NVIDIA Omniverse, gli sviluppatori possono simulare molteplici risultati di Cosmos per valutare scenari in tempo reale, accelerando il processo decisionale e ottimizzando i sistemi basati sull’IA come la robotica e i veicoli autonomi. Insieme, Cosmos e Omniverse consentono ai modelli di IA fisica di esplorare tutti i possibili risultati futuri, selezionando il percorso migliore per una maggiore precisione e affidabilità in ambienti complessi.

Inizia subito con la simulazione del Multiverso

Ecosistema

Adottato dai principali innovatori di IA fisica

Gli sviluppatori di modelli dei settori della robotica, dei veicoli autonomi e dell'IA visiva utilizzano Cosmos per accelerare lo sviluppo dell’IA fisica.

Prossimi passi

Vuoi iniziare?

Prova un modello di base del mondo nel catalogo delle API NVIDIA o inizia a progettare i tuoi modelli del mondo utilizzando NVIDIA Cosmos.

Prova Inizia a sviluppare

Crea i tuoi modelli personalizzati

NVIDIA NeMo fornisce una pipeline completa per gestire, tokenizzare e ottimizzare i world model su qualsiasi piattaforma.

Scopri di più

Inizia a gestire i dati video per i world model

Pipeline di elaborazione e gestione dei dati accelerata grazie a NVIDIA NeMo Curator e ottimizzata per le GPU dei data center NVIDIA.

Richiedi l'accesso anticipato

Domande frequenti (FAQ)

Gli sviluppatori di IA fisica possono iniziare subito con i modelli di base del mondo di Cosmos disponibili sul catalogo NGC e Hugging Face. Cosmos fornisce anche una pipeline completa per mettere a punto i modelli di base con NVIDIA NeMo. Gli sviluppatori possono utilizzare il tokenizzatore di Cosmos da /NVIDIA/cosmos-tokenizer su GitHub e Hugging Face.

Sì, puoi sfruttare Cosmos per costruire da zero con il tuo modello di base o l'architettura del modello preferito. Puoi iniziare utilizzando NeMo Curator per la pre-elaborazione dei dati video. Quindi comprimere e decodificare i dati con il Cosmos tokenizer e, una volta elaborati i dati, puoi addestrare o perfezionare il modello utilizzando NVIDIA NeMo.

Usando i microservizi NIM, puoi integrare facilmente i tuoi modelli di IA fisica nelle applicazioni su cloud, data center e workstation.

Puoi anche utilizzare NVIDIA DGX Cloud per addestrare i modelli di IA e distribuirli ovunque su larga scala.

Cosmos e Cosmos Nemotron sono entrambe famiglie di modelli NVIDIA progettati per elaborare e interpretare immagini dal mondo fisico.

I modelli Cosmos sono modelli di base del mondo che si concentrano sulla previsione e la generazione di video consapevoli della fisica, aiutando a simulare e comprendere gli stati futuri degli ambienti virtuali. Al contrario, i modelli Cosmos Nemotron sono modelli di linguaggio di visione specializzati nella ricerca e nella sintesi di immagini e video, che permettono all’IA di interpretare e rispondere a dati visivi sia fisici che virtuali.

Insieme, si completano a vicenda per consentire capacità avanzate di IA basate sulla comprensione visiva.