フィジカル AI

NVIDIA Cosmos

世界基盤モデルでフィジカル AI 開発を加速します。

概要

NVIDIA Cosmo とは何か?

NVIDIA Cosmos™ は最先端の生成型世界基盤モデル (WFM)、高度なトークナイザー、ガードレール、高速データ処理、キュレーション パイプラインからなるプラットフォームであり、フィジカル AI システム (自動運転車 (AV)ロボットなど) の開発を加速する目的で作られています。

フィジカル AI 開発者コミュニティに Cosmos 世界基盤モデルを公開

何百万時間にも及ぶ運転やロボティクスの動画データで訓練された最先端モデルであり、フィジカル AI 開発の民主化を目指しています。オープン モデル ライセンスの下で利用可能です。

フィジカル AI 開発を加速する世界基盤モデル プラットフォーム

ロボットや自動運転車など、フィジカル AI で具現化されるシステムの開発は、新しい NVIDIA Cosmos プラットフォームによって加速されます。

利点

世界基盤モデルでフィジカル AI 開発を加速

Cosmos のオープン プラットフォームなら、開発者は高性能な世界基盤モデルとデータパイプラインを簡単に利用できます。フィジカル AI 開発があらゆる人に開かれます。

装飾アイコン

物理対応

2000 万時間のロボット工学と運転のデータを含む、9,000 兆個のトークンでトレーニングされた第一世代のビデオ モデル スイート - 画像、テキスト、ビデオのようなマルチモーダル入力から高品質のビデオを生成します。

装飾アイコン

オープン

Cosmos WFM とトークナイザーは NVIDIA Open Model ライセンスの下でご利用いただけます。世界中の開発者が高額な費用を支払うことなくフィジカル AI システムを大規模に構築することができます。

装飾アイコン

データ処理とキュレーションを加速

CUDA™-X と NVIDIA AI で高速化するツールからなる NVIDIA NeMo Curator パイプラインは、100 PB 超のデータ処理でデータキュレーションのスピードを 20 倍にします。最適化には面倒な設定がなく、総所有コスト (TCO) を最小限に抑え、市場投入までの時間を短縮します。

装飾アイコン

カスタム モデルの開発

Cosmos トークナイザーは、8 倍効率的な圧縮技術と 12 倍高速の処理スピードでビジュアル データを高忠実度のトークンに変換します。

NVIDIA NeMo™ は、フィジカル AI 向けのマルチモーダル生成 AI モデルを構築するためのアクセラレーテッド トレーニングとファインチューニングを備えています。

モデル

NVIDIA Cosmos 世界基盤モデル

フィジカル AI 開発を目的に特化して設計された、物理を考慮した動画や世界の状態を生成するための事前学習済みモデル群。


モデル アーキテクチャ、開発リソース、可用性についてはこちらをご覧ください。

NVIDIA Cosmos 世界基盤モデル
装飾アイコン

最先端モデル群

  • テキストから世界を生成する「Text-to-World」や、ビデオから世界を生成する「Video-to-World」のための自己回帰モデルと拡散モデル。これらは 40 億個から 140 億個のパラメーター サイズで利用可能であり、さまざまなニーズに対応します。
  • 120 億個のパラメーターのアップサンプリングモデルにより、テキスト プロンプトを洗練し、生成された出力の精度と詳細を向上させます。
  • 70 億個のパラメーターのモデルで、ビデオ シーケンスのデコードに特化して設計されており、拡張現実 (AR) アプリケーション向けに最適化されています。
装飾アイコン

組み込みガードレール

  • ブランド、NSFW コンテンツ、有害なプロンプトをフィルタリングするための事前ガード。
  • 問題があるシナリオを除外する事後ガード。
  • 人間の顔をぼかすガードレール。
  • NVIDIA API カタログのあるプレビュー API から生成された合成ビデオのデジタル ウォーターマーク。

ベンチマーク

フィジカル AI パフォーマンスへの旅

NVIDIA は、ロボティクスおよび自動運転車のエコシステムと協力し、フィジカル AI アプリケーションの特有の要件を反映するために、世界基盤モデルに基づいた一連のベンチマークを開発しています。

Cosmos ベンチマークは、次世代の世界モデルを評価するために設計されており、ロボティクスや自律システムに不可欠な 3D 一貫性や物理的整合性といった高度な基準を採用しています。

VideoLDM (VLDM) というビデオ生成のベースライン生成モデルと比較して、Cosmos の WFM (世界基盤モデル) は、幾何学的精度に優れ、Sampson エラーが低く、時間的安定性が向上しています。また、ベンチマークでは、重力や衝突ダイナミクスといった物理的な挙動に基づいて WFM が評価されます。

Cosmos の WFM (世界基盤モデル) は、視覚的一貫性において VLDM を一貫して上回り、ポーズ推定の成功率では最大 14 倍の向上を達成しています。拡散モデルはそのままの状態で高い忠実度を提供する一方で、自己回帰モデルはカスタム モデルにおいて優れた性能を発揮します。

合成データ生成

ユース ケース

開発者が NVIDIA Cosmos を使用する方法

ロボット、自動運転車、ビジョン AI の開発者が Cosmos を活用してその研究を前進させる様子をご覧ください。

ビデオ検索

Cosmos は、開発者が AI モデルのトレーニング用にカスタマイズされたデータセットを構築するのを支援します。自動運転車向けの雪道映像や、ロボティクス向けの忙しい倉庫の映像など、Cosmos は空間的および時間的パターンを理解することで、動画のタグ付けや検索を簡素化し、トレーニングデータの準備をより容易にします。

これにより、時間とコストを削減し、実世界での使用に非常に関連性が高く、影響力のある AI モデルを提供できます。

合成データ生成

エコシステム

フィジカル AI のイノベーションをリードする企業が採用

ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を活用してフィジカル AI の開発を加速させています。

1X Technologies ロゴ
AgileX Robotics ロゴ
Agility Robotics ロゴ
Figure AI ロゴ
Foretellix ロゴ
Fourier ロゴ
Galbot ロゴ
Hillbot ロゴ
IntBot ロゴ
Neura Robotics ロゴ
Skild AI ロゴ
Uber ロゴ
Virtual Incision ロゴ
Waabi ロゴ
Wayve ロゴ
Xpeng ロゴ

次のステップ

さっそく始めませんか?

NVIDIA API カタログの世界基盤モデルをお試しください。あるいは、NVIDIA Cosmos を使用して世界モデルの構築を始めてください。

カスタム モデルを構築する

NVIDIA NeMo は、あらゆるプラットフォームで世界モデルをキュレート、トークナイズ、ファインチューニングするためのエンドツーエンド パイプラインを提供します。

世界モデルのためのビデオ データ キュレーションを始める

NVIDIA NeMo Curator を動力とし、NVIDIA データ センター GPU 向けに最適化された高速のデータ処理/キュレーション パイプライン。

よく寄せられる質問

Select Location
Middle East