Physische KI

NVIDIA Cosmos

Entwickeln Sie World-Foundation-Modelle für physische KI.

Überblick

Was ist NVIDIA Cosmos?

NVIDIA Cosmos™ ist eine Plattform, die speziell für physische KI entwickelt wurde und über modernste generative World-Foundation-Modelle, Sicherheits- und Kontrollmechanismen sowie eine Pipeline zur beschleunigten Verarbeitung und Kuration von Daten verfügt. Entwickler nutzen Cosmos, um die Entwicklung physischer KI für autonome Fahrzeuge (AVs), Roboter und KI-Agenten für Videoanalysen zu beschleunigen.

Anpassung von NVIDIA Cosmos für jeden Anwendungsfall physischer KI

Das Cosmos Cookbook bietet einen umfassenden Leitfaden für Entwickler physischer KI, um die Cosmos-basierten Modelle von NVIDIA zu erlernen, zu verwenden und nachzutrainieren, einschließlich neuer Anwendungen wie LidarGen, Cosmos Policy und mehr.

So skalieren Sie die Datengenerierung für physische KI mit dem NVIDIA Cosmos Cookbook

In diesem Blogbeitrag werden wir Cosmos Transfer-Rezepte testen, um Videohintergründe zu ändern, Fahrdaten um neue Umweltbedingungen zu ergänzen, Daten für die Roboternavigation zu generieren und synthetische Daten für Szenarien im Stadtverkehr zu erzeugen.

Offene Modelle

Cosmos-Modelle für physische KI

Vortrainierte multimodale generative Modelle, die Entwickler sofort für Weltgenerierung oder Reasoning verwenden bzw. nachtrainieren können, um physische KI-Modelle zu erarbeiten.

Cosmos Predict

Ein hochmodernes Vorhersagemodell für den Weltzustand, das aus multimodalen Eingaben mit überlegener Geschwindigkeit, Genauigkeit und Prompt-Einhaltung bis zu 30 Sekunden kontinuierliches Video generieren kann. Nutzen Sie fortschrittliche Prognosen und Szenarioplanung für Robotik und KI-Agenten, indem Sie zukünftige Zustände von dynamischen Umgebungen vorhersagen.

Cosmos Transfer

Das Multicontrol-Modell skaliert eine einzelne Simulation oder ein räumliches Video rasch über verschiedene Umgebungen und Lichtverhältnisse hinweg. Beschleunigen Sie 3D-Eingaben aus Frameworks für physische KI-Simulationen (wie CARLA oder NVIDIA Isaac Sim™), um vollständig steuerbare Pipelines zur Datenaugmentation und Generierung synthetischer Daten zu ermöglichen.

Cosmos Reason

Ein offenes, anpassbares Vision Language Model (VLM) mit Reasoning für physische KI erlaubt es Robotern und Vision-KI-Agenten, wie Menschen zu schlussfolgern. Es kann Vorwissen, physikalisches Verständnis und gesunden Menschenverstand nutzen, um die reale Welt zu verstehen und mit ihr zu interagieren.

Datenverarbeitung

NVIDIA Cosmos Curator ist ein Framework, mit dem Entwickler große Mengen an Sensordaten, die für die Entwicklung physischer KI erforderlich sind, rasch filtern, kommentieren und deduplizieren können. So entstehen maßgeschneiderte Datensätze, die Modellanforderungen gerecht werden. Mit NVIDIA Cosmos Dataset Search (CDS) können Entwickler solche Datensätze unmittelbar abfragen und Szenarien für gezieltes Nachtrainieren abrufen.

Beschleunigen Sie das effiziente Verarbeiten und Generieren von Datensätzen.

Anwendungsbeispiele

Wie Cosmos KI in verschiedenen Branchen beschleunigt

Nutzen Sie Cosmos WFMs, um Daten für nachgelagerte Pipelines in den Bereichen Robotik, autonome Fahrzeuge und industrielle Vision-Systeme zu simulieren, zu analysieren und zu generieren.

Roboterlernen

Roboter benötigen umfangreiche, vielfältige Trainingsdaten, um ihre Umgebungen effektiv wahrnehmen und mit ihnen interagieren zu können. Mit Cosmos WFMs können Entwickler steuerbare, hochpräzise synthetische Daten generieren, um Roboterwahrnehmungs- und Richtlinienmodelle zu trainieren.

Training für autonome Fahrzeuge

Vielfältige, hochpräzise Sensordaten sind für das sichere Trainieren, Testen und Validieren autonomer Fahrzeuge unerlässlich. Mit Cosmos WFMs, die mit Fahrzeugdaten nachtrainiert wurden, können Entwickler die bestehende Datenvielfalt mit neuen Daten zu Wetter, Lichtverhältnissen und geografischen Verhältnissen erweitern oder Multi-Sensor-Ansichten nutzen – und so erheblich Zeit und Geld sparen.

KI-Agenten für Videoanalysen

Diese KI-Agenten können Echtzeit- oder aufgezeichnete Videostreams analysieren, zusammenfassen und mit ihnen interagieren, um Automatisierung, Sicherheit und betriebliche Effizienz in industriellen und städtischen Umgebungen zu verbessern. Cosmos Reason unterstützt KI-Agenten für Videoanalysen, um Fragen in Echtzeit zu beantworten sowie schnelle Warnungen und umfangreiche kontextbezogene Erkenntnisse zu liefern. Das Ergebnis: intelligentere und reaktionsschnellere Systeme in Edge- und Cloud-Umgebungen.

Vertrauenswürdige KI

Unterstützung der Community für physische KI

Cosmos-Modelle, Sicherheitsmechanismen und Tokenizer sind bei Hugging Face und GitHub verfügbar und bieten Ressourcen zur Bewältigung der Datenknappheit beim Trainieren physischer KI-Modelle.

KI-Infrastruktur

Mit NVIDIA Blackwell maximale Leistung erzielen

Die Server der NVIDIA RTX PRO 6000 Blackwell-Serie beschleunigen die Entwicklung physischer KI für Roboter, autonome Fahrzeuge und KI-Agenten – ob beim Trainieren, Generieren synthetischer Daten, Simulieren oder Inferenzieren.

Nutzen Sie Spitzenleistung für Cosmos-World-Foundation-Modelle auf NVIDIA Blackwell GB200 für industrielles Nachtrainieren und Inferenz-Workloads.

Technologieumfeld

Genutzt von führenden Innovatoren auf dem Gebiet der physischen KI

Modellentwickler aus den Bereichen Robotik, autonome Fahrzeuge und Vision-KI nutzen Cosmos, um die Entwicklung physischer KI zu beschleunigen.

Nächste Schritte

Sind Sie bereit?

Testen Sie ein World-Foundation-Modell im NVIDIA API-Katalog oder beginnen Sie mit der Entwicklung eigener Weltmodelle unter Einsatz von Cosmos.

Cosmos-Kochbuch

Ein umfassender Leitfaden für die Arbeit mit dem NVIDIA Cosmos-Ökosystem für reale, fachspezifische Anwendungen in den Bereichen Robotik, Simulation, autonome Systeme und Verständnis physischer Szenarien.

Entwicklung von KI-Agenten für Videoanalysen

Verwenden Sie Cosmos Reason mit NVIDIA Blueprint für Videosuche und -zusammenfassung (VSS), um KI-Agenten für skalierbares Echtzeit-Videoverstehen zu entwickeln.

Ressourcen

Das Neueste von Cosmos-Entwicklern

Häufig gestellte Fragen

Beginnen Sie mit der Dokumentation. Cosmos WFMs sind bei Hugging Face, Skripte für Inferenz und Nachtrainieren bei GitHub frei verfügbar.

Cosmos WFMs sind unter einer NVIDIA Open-Model-Lizenz für alle verfügbar.

PyTorch-Skripte sind für alle Cosmos-Modelle für das Nachtrainieren frei verfügbar. Das neue Cosmos-Kochbuch enthält Schritt-für-Schritt-Rezepte und Skripte für das Nachtrainieren, damit Sie Cosmos World-Foundation-Modelle von NVIDIA für Robotik und autonome Systeme schnell entwickeln, anpassen und bereitstellen können.

Ja, Sie können Cosmos verwenden, um mit Ihrem bevorzugten Foundation-Modell oder Ihrer Modellarchitektur Modelle von Grund auf neu zu erstellen. Sie können zunächst NeMo Curator für die Vorverarbeitung von Videodaten nutzen. Anschließend komprimieren und dekodieren Sie Ihre Daten mit Cosmos Tokenizer. Sobald Sie die Daten verarbeitet haben, können Sie Ihr Modell mit NVIDIA NeMo trainieren oder optimieren.

Mit NVIDIA NIM™ Microservices können Sie Ihre physischen KI-Modelle einfach in Ihre Anwendungen integrieren, die sich über Cloud, Rechenzentren und Workstations erstrecken.

Sie können auch NVIDIA DGX Cloud nutzen, um KI-Modelle zu trainieren und in großem Umfang überall bereitzustellen.

Alle drei sind WFMs mit unterschiedlichen Aufgaben:

  • Cosmos Predict generiert verschiedene Videoszenen aus Text-, Bild- oder Video-Prompts – ideal für das Nachtrainieren von Objekten wie Robotern oder selbstfahrenden Autos.
  • Cosmos Transfer wendet eine Multi-Control-Stilübertragung – Änderung von Licht und Umgebungen – auf physikbasierte Videos an, die häufig in Simulatoren wie NVIDIA Omniverse erstellt werden.
  • Cosmos Reason beantwortet Textabfragen, indem es zu Video- und Bildeingaben schlussfolgert.

Cosmos Reason kann neue und vielfältige Text-Prompts aus einem Startvideo für Cosmos Predict generieren oder synthetische Daten aus Predict und Transfer bewerten und kommentieren.

Omniverse erstellt mit verschiedenen generativen APIs, SDKs und NVIDIA RTX-Rendering-Technik realistische 3D-Simulationen von Aufgaben in der realen Welt.

Entwickler können Omniverse-Simulationen als Instruktionsvideos in Cosmos Transfer-Modelle eingeben, um steuerbare fotorealistische synthetische Daten zu generieren.

Omniverse stellt die Simulationsumgebung vor und nach dem Training bereit, während Cosmos die Foundation-Modelle für die Generierung von Videodaten und das Trainieren physischer KI-Modelle zur Verfügung stellt.

Erfahren Sie mehr über NVIDIA Omniverse.