フィジカル AI
世界基盤モデルでフィジカル AI 開発を加速します。
概要
NVIDIA Cosmos™ は最先端の生成型世界基盤モデル (WFM)、高度なトークナイザー、ガードレール、高速データ処理、キュレーション パイプラインからなるプラットフォームであり、フィジカル AI システム (自動運転車 (AV) やロボットなど) の開発を加速する目的で作られています。
利点
Cosmos のオープン プラットフォームなら、開発者は高性能な世界基盤モデルとデータパイプラインを簡単に利用できます。フィジカル AI 開発があらゆる人に開かれます。
モデル
フィジカル AI 開発を目的に特化して設計された、物理を考慮した動画や世界の状態を生成するための事前学習済みモデル群。
モデル アーキテクチャ、開発リソース、可用性についてはこちらをご覧ください。
NVIDIA は、ロボティクスおよび自動運転車のエコシステムと協力し、フィジカル AI アプリケーションの特有の要件を反映するために、世界基盤モデルに基づいた一連のベンチマークを開発しています。
Cosmos ベンチマークは、次世代の世界モデルを評価するために設計されており、ロボティクスや自律システムに不可欠な 3D 一貫性や物理的整合性といった高度な基準を採用しています。
VideoLDM (VLDM) というビデオ生成のベースライン生成モデルと比較して、Cosmos の WFM (世界基盤モデル) は、幾何学的精度に優れ、Sampson エラーが低く、時間的安定性が向上しています。また、ベンチマークでは、重力や衝突ダイナミクスといった物理的な挙動に基づいて WFM が評価されます。
Cosmos の WFM (世界基盤モデル) は、視覚的一貫性において VLDM を一貫して上回り、ポーズ推定の成功率では最大 14 倍の向上を達成しています。拡散モデルはそのままの状態で高い忠実度を提供する一方で、自己回帰モデルはカスタム モデルにおいて優れた性能を発揮します。
ロボット、自動運転車、ビジョン AI の開発者が Cosmos を活用してその研究を前進させる様子をご覧ください。
Cosmos は、開発者が AI モデルのトレーニング用にカスタマイズされたデータセットを構築するのを支援します。自動運転車向けの雪道映像や、ロボティクス向けの忙しい倉庫の映像など、Cosmos は空間的および時間的パターンを理解することで、動画のタグ付けや検索を簡素化し、トレーニングデータの準備をより容易にします。
これにより、時間とコストを削減し、実世界での使用に非常に関連性が高く、影響力のある AI モデルを提供できます。
開発者は、自身の 3D シミュレーション データを活用して、フォトリアルな合成動画を生成できます。Omniverse を使用することで、モデルのトレーニングに必要な 3D 環境を作成できます。その後、3D シーンによって正確に制御されたフォトリアリスティックな動画を生成し、高度にカスタマイズされた合成データセットを作成できます。
Cosmos の世界基盤モデルは、アクションに基づく動画予測のためにファインチューニングされており、フィジカル AI システムの戦略を定義するポリシー モデルのトレーニングと評価をスケーラブルかつ再現性の高い形で可能にします。これにより、状態から行動へのマッピングが効率的に実現されます。開発者はこれらのモデルを使用することで、障害物の回避や物体操作といったタスクにおいて、リスクの高い実世界でのテストや複雑なシミュレーションへの依存を減らすことができます。これにより、性能を最適化し、ロボティクスや自動運転車などの実世界でのアプリケーションにおいて信頼性を確保します。
Cosmos は、フィジカル AI に高度な予測インテリジェンスを提供し、システムが将来のシナリオを予測し、より賢明な意思決定を行えるようにします。Cosmos は、過去のデータやテキスト プロンプトに基づいた予測動画を生成する「フォーサイト ジェネレーション (先見の明の生成)」を利用し、フィジカル AI が最適な行動を選択できるようにします。これにより、動的な環境における効率性、適応性、安全性が向上します。
NVIDIA Omniverse を使用することで、開発者は複数の Cosmos による結果をシミュレーションし、リアルタイムのシナリオを評価できます。これにより、意思決定が加速し、ロボティクスや自動運転車といった AI 駆動型システムを最適化できます。Cosmos と Omniverse を組み合わせることで、フィジカル AI モデルはすべての可能な未来の結果を探索し、複雑な環境で精度と信頼性を高める最適な経路を選択することが可能になります。
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を活用してフィジカル AI の開発を加速させています。
フィジカル AI 開発者は、NGC カタログと Hugging Face で利用可能な Cosmos の世界基盤モデルを今すぐ開始できます。また、NVIDIA NeMo で基盤モデルのファインチューニングを行うためのエンドツーエンドのパイプラインも提供しています。開発者は、GitHub と Hugging Face の /NVIDIA/cosmos-tokenizer から Cosmos トークナイザーを使用できます。
Cosmos 世界基盤モデルは NVIDIA Open Model License の下で誰もが利用できます。
はい。Cosmos では、NeMo によるファインチューニングがサポートされています。 LoRA や RLHF (人間のフィードバックによる強化学習) など、人気の手法を利用してモデルを効率的にトレーニングしたり、ファインチューニングしたりできます。 PyTorch を選択し、独自のデータセットを使用して WFM のトレーニングを続けることもできます。
はい。Cosmos を使用するとき、自分で選んだ基礎モデルやモデル アーキテクチャでゼロから構築できます。まず、ビデオ データの事前処理に NeMo Curator の使用から始めることができます。その後、Cosmos トークナイザーでデータを圧縮、デコードし、データが処理されたら、NVIDIA NeMo を使用してモデルをトレーニングしたり、ファインチューニングしたりできます。
NIM マイクロサービスを使用し、クラウド、データ センター、ワークステーションをまたいでアプリケーション内でフィジカル AI モデルを簡単に統合できます。
NVIDIA DGX Cloud を使用すれば、AI モデルをトレーニングし、どこにでも大規模に展開できます。
Cosmos と Cosmos Nemotron はいずれも、物理世界からとられた映像を処理し、解釈するように作られた NVIDIA モデル群に属します。
Cosmos モデルは、物理を考慮した動画を予測・生成することに特化した世界基盤モデルであり、仮想環境の将来の状態をシミュレーションし、理解するのに役立ちます。一方で、Cosmos Nemotron モデルは、画像や動画のクエリ処理や要約に特化したビジョン ランゲージ モデルであり、物理的および仮想的な視覚データを AI が解釈し、それに応答する能力を提供します。
この 2 つが互いに補完することで、映像理解に基づいた高度な AI 機能が可能になります。