Physische KI
Beschleunigen Sie die Entwicklung physischer KI mit World-Foundation-Modellen.
Überblick
NVIDIA Cosmos™ ist eine Plattform mit modernen generativen World-Foundation-Modellen (WFM), fortschrittlichen Tokenizern, Guardrails und einer beschleunigten Datenverarbeitungs- und Kuratierungspipeline, die die Entwicklung von Systemen mit physischer KI wie autonome Fahrzeuge (AVs) und Roboter beschleunigen soll.
Vorteile
Cosmos bietet Entwicklern einen offenen und einfachen Zugang zu hochleistungsfähigen World-Foundation-Modellen und Datenpipelines und macht damit die Entwicklung physischer KI für jeden möglich.
Modelle
Eine Serie von vorab trainierten Modellen, die speziell für die Generierung von physikorientierten Videos und Umgebungszuständen für die Entwicklung physischer KI entwickelt wurden.
Weiteres über Modellarchitekturen, Entwicklungsressourcen und Verfügbarkeit erfahren Sie hier.
NVIDIA arbeitet mit dem Ökosystem der Bereiche Robotik und Autonome Fahrzeuge zusammen, um eine Reihe von Benchmarks zu entwickeln, die die spezifischen Anforderungen von physischen KI-Anwendungen anhand von World-Foundation-Modellen berücksichtigen.
Cosmos-Benchmarks wurden entwickelt, um die nächste Generation von Weltmodellen mit fortschrittlichen Kriterien wie 3D-Konsistenz und Physik-Ausrichtung zu bewerten, die für Robotik und autonome Systeme unerlässlich sind.
Im Vergleich zu VideoLDM (VLDM), einem generativen Baseline-Modell für die Videosynthese, zeichnen sich Cosmos WFMs durch geometrische Genauigkeit mit geringeren Sampson-Fehlern und besserer zeitlicher Stabilität aus. Benchmarks bewerten WFMs auch auf der Grundlage von physischem Verhalten wie Schwerkraft und Kollisionsdynamik.
Cosmos WFMs übertreffen VLDM immer wieder bei der visuellen Konsistenz und erzielen eine bis zu 14-mal höhere Erfolgsrate bei der Posenschätzung. Während Diffusionsmodelle von Haus aus eine höhere Genauigkeit aufweisen, bieten autoregressive Modelle eine hervorragende Leistung bei benutzerdefinierten Modellen.
Schauen Sie sich an, wie Entwickler aus den Bereichen Robotik, Autonome Fahrzeuge und Vision AI mit Cosmos noch bessere Ergebnisse erzielen.
Cosmos hilft Entwicklern, maßgeschneiderte Datensätze für das Training ihrer KI-Modelle zu erstellen. Ob es sich um Aufnahmen schneebedeckter Straßen für selbstfahrende Autos oder um geschäftige Lagerhallen für Robotik handelt, Cosmos vereinfacht das Tagging und die Suche in Videos, indem es räumliche und zeitliche Muster erkennt und so das Vorbereiten der Trainingsdaten erleichtert.
Das spart Zeit, senkt Kosten und trägt dazu bei, KI-Modelle zu liefern, die für den realen Einsatz äußerst wichtig und wirkungsvoll sind.
Entwickler können ihre 3D-Simulationsdaten nutzen, um fotorealische synthetische Videos zu generieren. Mit Omniverse können sie 3D-Umgebungen erstellen, die ihre Anforderungen an das Modelltraining erfüllen. Als Nächstes können sie fotorealistische Videos erzeugen, die von 3D-Szenen präzise gesteuert werden, um hochgradig maßgeschneiderte synthetische Datensätze zu erstellen.
Cosmos-World-Foundation-Modelle, die auf handlungsbedingte Videovorhersagen abgestimmt sind, ermöglichen ein skalierbares und reproduzierbares Training und die Evaluierung von Richtlinienmodellen, die Strategien für physische KI-Systeme definieren, indem sie Zustände als Handlungen darstellen. Entwickler nutzen diese Modelle, um die Abhängigkeit von riskanten realen Tests oder komplexen Simulationen für Aufgaben wie Hindernisnavigation und Objektmanipulation zu reduzieren, die Leistung zu optimieren und die Zuverlässigkeit in realen Anwendungen wie Robotik und autonomen Fahrzeugen sicherzustellen.
Cosmos bringt fortschrittliche vorausschauende Intelligenz in die physische KI, mit der Systeme zukünftige Szenarien vorhersehen und intelligentere Entscheidungen treffen können. Durch die Vorausschau-Generierung – die Generierung vorausschauender Videos auf der Grundlage früherer Daten und Textaufforderungen – ermöglicht Cosmos der physischen KI die Auswahl optimaler Handlungen, was zu einer Verbesserung der Effizienz, Anpassungsfähigkeit und Sicherheit in dynamischen Umgebungen führt.
Mit NVIDIA Omniverse können Entwickler multiple Cosmos-Ergebnisse simulieren, um Echtzeit-Szenarien zu bewerten, Entscheidungen zu beschleunigen und KI-gesteuerte Systeme wie Robotik und autonome Fahrzeuge zu optimieren. Gemeinsam ermöglichen Cosmos und Omniverse den physischen KI-Modellen, alle erdenklichen zukünftigen Ergebnisse zu erforschen und den besten Weg für eine höhere Präzision und Zuverlässigkeit in komplexen Umgebungen auszuwählen.
Modellentwickler aus den Bereichen Robotik, Autonome Fahrzeuge und Vision AI verwenden Cosmos zur beschleunigten Entwicklung physischer KI.
Entwickler physischer KI können jetzt mit den Cosmos-World-Foundation-Modellen starten, die im NGC-Katalog und auf Hugging Face verfügbar sind. Cosmos bietet außerdem eine End-to-End-Pipeline zur Feinabstimmung der Foundation Models mit NVIDIA NeMo. Entwickler können den Cosmos-Tokenizer von /NVIDIA/cosmos-tokenizer auf GitHub und Hugging Face verwenden.
Die Cosmos World-Foundation-Modelle sind für alle unter einer offenen NVIDIA-Modelllizenz verfügbar.
Ja, Cosmos unterstützt die Feinabstimmung mit NeMo. Sie können Modelle mit gängigen Techniken wie LoRA und RLHF (Reinforcement Learning from Human Feedback) effizient trainieren und feinabstimmen. Sie können auch PyTorch wählen, um das Training der WFMs mit Ihren eigenen Datensätzen fortzusetzen.
Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation-Modell oder Ihrer bevorzugten Modellarchitektur Modelle von Grund auf neu zu erstellen. Beginnen Sie mit NeMo Curator für die Vorverarbeitung von Videodaten. Komprimieren und dekodieren Sie Ihre Daten anschließend mit dem Cosmos-Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder feinabstimmen.
Die NIM-Microservices bieten Ihnen die Möglichkeit, Ihre physischen KI-Modelle ganz leicht in Ihre Anwendungen in der Cloud, in Rechenzentren und auf Workstations zu integrieren.
Außerdem können Sie mit NVIDIA DGX Cloud KI-Modelle trainieren und in beliebigem Maßstab bereitstellen.
Cosmos und Cosmos Nemotron sind beides Varianten von NVIDIA-Modellen, die zur Verarbeitung und Interpretation von Visualisierungen aus der physischen Welt entwickelt wurden.
Cosmos-Modelle sind World-Foundation-Modelle, die sich auf die Vorhersage und Generierung von physikorientierten Videos konzentrieren und dabei helfen, zukünftige Zustände virtueller Umgebungen zu simulieren und zu erkennen. Cosmos-Nemotron-Modelle hingegen sind Vision-Sprachemodelle, die auf die Abfrage und Zusammenfassung von Bildern und Videos spezialisiert sind und die KI befähigen, sowohl physische als auch virtuelle visuelle Daten zu interpretieren und darauf zu reagieren.
Die beiden Varianten ergänzen sich gegenseitig und ermöglichen fortschrittliche KI-Funktionen, die auf visuellem Verständnis beruhen.