フィジカル AI
世界基盤モデルでフィジカル AI 開発を加速します。
概要
NVIDIA Cosmos™ は最先端の生成型世界基盤モデル (WFM)、高度なトークナイザー、ガードレール、高速データ処理、キュレーション パイプラインからなるプラットフォームであり、フィジカル AI システム (自動運転車 (AV) やロボットなど) の開発を加速する目的で作られています。
利点
Cosmos のオープン プラットフォームなら、開発者は高性能な世界基盤モデルとデータパイプラインを簡単に利用できます。フィジカル AI 開発があらゆる人に開かれます。
モデル
フィジカル AI 開発を目的に特化して設計された、物理を考慮した動画や世界の状態を生成するための事前学習済みモデル群。
モデル アーキテクチャ、開発リソース、可用性についてはこちらをご覧ください。
NVIDIA は、ロボティクスおよび自動運転車のエコシステムと協力し、フィジカル AI アプリケーションの特有の要件を反映するために、世界基盤モデルに基づいた一連のベンチマークを開発しています。
Cosmos ベンチマークは、次世代の世界モデルを評価するために設計されており、ロボティクスや自律システムに不可欠な 3D 一貫性や物理的整合性といった高度な基準を採用しています。
VideoLDM (VLDM) というビデオ生成のベースライン生成モデルと比較して、Cosmos の WFM (世界基盤モデル) は、幾何学的精度に優れ、Sampson エラーが低く、時間的安定性が向上しています。また、ベンチマークでは、重力や衝突ダイナミクスといった物理的な挙動に基づいて WFM が評価されます。
Cosmos の WFM (世界基盤モデル) は、視覚的一貫性において VLDM を一貫して上回り、ポーズ推定の成功率では最大 14 倍の向上を達成しています。拡散モデルはそのままの状態で高い忠実度を提供する一方で、自己回帰モデルはカスタム モデルにおいて優れた性能を発揮します。
ロボット、自動運転車、ビジョン AI の開発者が Cosmos を活用してその研究を前進させる様子をご覧ください。
Cosmos は、開発者が AI モデルのトレーニング用にカスタマイズされたデータセットを構築するのを支援します。自動運転車向けの雪道映像や、ロボティクス向けの忙しい倉庫の映像など、Cosmos は空間的および時間的パターンを理解することで、動画のタグ付けや検索を簡素化し、トレーニングデータの準備をより容易にします。
これにより、時間とコストを削減し、実世界での使用に非常に関連性が高く、影響力のある AI モデルを提供できます。
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を活用してフィジカル AI の開発を加速させています。