實體人工智慧

NVIDIA Cosmos

利用世界基礎模型加速實體人工智慧開發。

立即試用著手開發

概覽

開始使用

概覽

NVIDIA Cosmos 是什麼？

NVIDIA Cosmos™ 是尖端的生成式世界基礎模型 (WFM)、進階標記化工具、安全防護機制，以及加速資料處理與策劃流程的平台，加速自駕車 (AV) 與機器人等實體人工智慧系統的發展。

Cosmos 世界基礎模型向實體人工智慧開發社群開放

最先進的模型經過數百萬小時的駕駛與機器人影片資料訓練，以實現實體人工智慧開發的普及化，並可在開放模型授權下使用。

閱讀部落格

NVIDIA 推出 Cosmos 世界基礎模型平台，加速開發實體 AI

全新的 NVIDIA Cosmos 平台加速機器人與自駕車等實體人工智慧系統開發。

閱讀新聞稿

優勢

利用世界基礎模型加速實體人工智慧開發

Cosmos 讓開發人員輕鬆輕鬆使用高效能的世界基礎模型與資料流程，使實體人工智慧開發人人皆可參與。

具備物理意識

第一代影片模型採用 9,000 兆個標記訓練，其中包括 2,000 萬小時的機器人技術與駕駛資料，透過影像、文字或影片等多模式輸入方式生成高畫質影片。

開放

Cosmos WFM 與標記化工具採用 NVIDIA Open Model License，讓全球開發人員無需高昂的入門成本，即可大規模打造實體人工智慧系統。

加速資料處理與策劃

利用 CUDA™-X 的 NVIDIA NeMo Curator 流程與 NVIDIA 人工智慧加速工具，將資料策劃的速度提高 20 倍，處理超過 100 PB 的資料。它提供開箱即用的最佳化解決方案，將總擁有成本 (TCO) 降到最低，並加速上市時間。

開發客製化模型

Cosmos 標記化工具可將視覺資料轉換成高擬真標記，壓縮率提高 8 倍，處理速度加快 12 倍。

NVIDIA NeMo™ 提供加速訓練與微調功能，為實體人工智慧打造多型態生成式人工智慧模型。

模型

NVIDIA Cosmos 世界基礎模型

一系列預先訓練的模型，專為實體人工智慧開發提供具備實體意識的影片與世界狀態。

在這裡深入瞭解模型架構、開發資源與供應情況。

一系列頂尖模型

適用於文字轉世界與影片轉世界生成自動迴歸及擴散模型，參數大小介於 40 億至 140 億之間，適合各種需求。總計
120 億參數上取樣模型，精準文字提示，在生成輸出中加強精準度與細節。
70 億參數模型專為解碼影片序列而設計，並針對擴增實境應用進行最佳化。

內建安全防護機制

預先防護以篩選品牌、NSFW 內容與有害提示。
事後防範，排除可疑情境。
安全防護機制可模糊人臉。
NVIDIA API 目錄中的 Preview API 生成合成影片的數位浮水印。

基準測試

實體人工智慧效能之旅

NVIDIA 正與機器人技術與自駕車生態系統合作，開發一系列評測基準，反映世界基礎模型實體人工智慧應用的獨特需求。

Cosmos 評測基準旨在評估新一代的世界模型，採用 3D 一致性與實體對齊等先進標準，對於機器人與自主系統至關重要。

相較於適用於影片合成的基本生成式模型 VideoLDM (VLDM) 而言，Cosmos WFM 在幾何精度方面表現出色，Sampson 誤差更低，時間穩定性更佳。評測基準也根據重力與碰撞動態等實體行為來評估 WFM。

Cosmos WFM 在視覺一致性方面始終優於 VLDM，姿勢估計成功率高達 14 倍。擴散模型提供開箱即用的高擬真度，而自動迴歸模型則提供出色的客製化模型效能。

使用案例

開發人員如何善用 NVIDIA Cosmos

瞭解機器人技術、自駕車與視覺人工智慧領域的開發人員如何利用 Cosmos 推動工作進展。

影片搜尋
可操控的 3D 到真實
政策模型
Foresight
多宇宙模擬

影片搜尋

Cosmos 協助開發人員建立量身打造的資料集，用於人工智慧模型訓練。無論是自駕車的雪地路面影像，還是機器人技術的繁忙倉儲情境，Cosmos 都能透過理解空間與時間模式，簡化影片的標記與搜尋，讓訓練資料的準備變得更加輕鬆。

這樣可節省時間、降低成本，並協助提供與現實世界息息相關且具影響力的人工智慧模型。

開始使用合成資料生成

可操控的 3D 到真實合成資料

開發人員可以利用 3D 模擬資料，生成逼真的合成影片。他們利用 Omniverse 建立符合模型訓練需求的 3D 環境。接下來，他們可以製作由 3D 情境精確控制的逼真影片，適用於量身打造的合成資料集。

深入瞭解 NVIDIA Omniverse

政策模型訓練與評估

Cosmos 世界基礎模型經過精細調整，適用於動作預報影片，實現可擴充且重現的訓練與政策模型評估，為實體人工智慧系統制定策略，將狀態與行動相互對應。開發人員利用這些模型，減少對障礙物導覽與物件操縱等任務的冒險實際測試或複雜模擬的依賴，最佳化效能，確保機器人與自駕車等真實世界應用的可靠性。

開始使用政策模型訓練與評估

Foresight

Cosmos 將先進的預測智慧引進實體人工智慧，讓系統能夠預測未來情境，做出更明智的決定。 Cosmos 透過前瞻生成，根據過去的資料與文字提示生成預測影片，讓實體人工智慧選擇最佳動作，在動態環境中提高效率、適應能力與安全性。

開始使用 Foresight

多宇宙模擬

開發人員利用 NVIDIA Omniverse 模擬多款 Cosmos 結果，即時評估情境，加速決策，並最佳化機器人與自駕車等人工智慧系統。 Cosmos 與 Omniverse 攜手合作，讓實體人工智慧模型探索未來可能出現的一切結果，在複雜的環境中選擇最佳途徑，提高精準度與可靠性。

開始使用多宇宙模擬

生態系

深受頂尖實體人工智慧創新者的青睞

機器人技術、自駕車與視覺人工智慧產業的模型開發人員，正利用 Cosmos 加速實體人工智慧開發。

下一步

準備好開始了嗎？

在 NVIDIA API 目錄中試用世界基礎模型，或是利用 NVIDIA Cosmos 開始建立世界模型。

立即試用著手開發

打造客製化模型

NVIDIA NeMo 提供端對端流程，可在任何平台上策劃、標記及微調世界模型。

深入瞭解

開始策劃世界模型的影片資料

由 NVIDIA NeMo Curator 提供支援，並針對 NVIDIA 資料中心 GPU 進行最佳化的加速資料處理及策劃流程。

申請搶先體驗

常見問題

是，您可以利用 Cosmos 從零開始建立您喜愛的基礎模型或模型架構。首先可以使用 NeMo Curator 進行影片資料預先處理。然後使用 Cosmos 標記化工具將資料壓縮和解碼，處理完畢後，利用 NVIDIA NeMo 訓練或微調模型。透過 NIM 微服務，將實體人工智慧模型整合至雲端、資料中心和工作站的應用程式。

您也可以利用 NVIDIA DGX Cloud 訓練人工智慧模型，並在任何地方大規模部署。

Cosmos 與 Cosmos Nemotron 是 NVIDIA 的模型系列，專為處理及解讀實體世界的視覺效果而設計。

Cosmos 模型是預測及生成具備實體意識之影片的世界基礎模型，協助模擬及瞭解虛擬環境的未來狀態。相比之下，Cosmos Nemotron 模型是視覺語言模型，專門查詢影像與影片及為其做摘要，讓人工智慧解讀實體與虛擬視覺資料，並做出回應。

兩者相輔相成，實現基於視覺理解的進階人工智慧功能。