實體人工智慧
利用世界基礎模型加速實體人工智慧開發。
概覽
NVIDIA Cosmos™ 是尖端的生成式世界基礎模型 (WFM)、進階標記化工具、安全防護機制,以及加速資料處理與策劃流程的平台,加速自駕車 (AV) 與機器人等實體人工智慧系統的發展。
模型
一系列預先訓練的模型,專為實體人工智慧開發提供具備實體意識的影片與世界狀態。
在這裡深入瞭解模型架構、開發資源與供應情況。
NVIDIA 正與機器人技術與自駕車生態系統合作,開發一系列評測基準,反映世界基礎模型實體人工智慧應用的獨特需求。
Cosmos 評測基準旨在評估新一代的世界模型,採用 3D 一致性與實體對齊等先進標準,對於機器人與自主系統至關重要。
相較於適用於影片合成的基本生成式模型 VideoLDM (VLDM) 而言,Cosmos WFM 在幾何精度方面表現出色,Sampson 誤差更低,時間穩定性更佳。 評測基準也根據重力與碰撞動態等實體行為來評估 WFM。
Cosmos WFM 在視覺一致性方面始終優於 VLDM,姿勢估計成功率高達 14 倍。 擴散模型提供開箱即用的高擬真度,而自動迴歸模型則提供出色的客製化模型效能。
瞭解機器人技術、自駕車與視覺人工智慧領域的開發人員如何利用 Cosmos 推動工作進展。
Cosmos 協助開發人員建立量身打造的資料集,用於人工智慧模型訓練。 無論是自駕車的雪地路面影像,還是機器人技術的繁忙倉儲情境,Cosmos 都能透過理解空間與時間模式,簡化影片的標記與搜尋,讓訓練資料的準備變得更加輕鬆。
這樣可節省時間、降低成本,並協助提供與現實世界息息相關且具影響力的人工智慧模型。
開發人員可以利用 3D 模擬資料,生成逼真的合成影片。 他們利用 Omniverse 建立符合模型訓練需求的 3D 環境。接下來,他們可以製作由 3D 情境精確控制的逼真影片,適用於量身打造的合成資料集。
Cosmos 世界基礎模型經過精細調整,適用於動作預報影片,實現可擴充且重現的訓練與政策模型評估,為實體人工智慧系統制定策略,將狀態與行動相互對應。 開發人員利用這些模型,減少對障礙物導覽與物件操縱等任務的冒險實際測試或複雜模擬的依賴,最佳化效能,確保機器人與自駕車等真實世界應用的可靠性。
Cosmos 將先進的預測智慧引進實體人工智慧,讓系統能夠預測未來情境,做出更明智的決定。 Cosmos 透過前瞻生成,根據過去的資料與文字提示生成預測影片,讓實體人工智慧選擇最佳動作,在動態環境中提高效率、適應能力與安全性。
開發人員利用 NVIDIA Omniverse 模擬多款 Cosmos 結果,即時評估情境,加速決策,並最佳化機器人與自駕車等人工智慧系統。 Cosmos 與 Omniverse 攜手合作,讓實體人工智慧模型探索未來可能出現的一切結果,在複雜的環境中選擇最佳途徑,提高精準度與可靠性。
機器人技術、自駕車與視覺人工智慧產業的模型開發人員,正利用 Cosmos 加速實體人工智慧開發。
實體人工智慧開發人員現在可以開始使用 NGC 目錄與 Hugging Face 的 Cosmos 世界基礎模型。Cosmos 也提供端對端流程,透過 NVIDIA NeMo 微調基礎模型。開發人員可透過 GitHub 和 Hugging Face 上的 /NVIDIA/cosmos-tokenizer 來使用 Cosmos 標記化工具。
Cosmos 世界基礎模型可透過 NVIDIA Open Model License 取得。
是,Cosmos 支援 NeMo 微調。 利用 LoRA 與 RLHF (從人類意見回饋中強化學習) 等熱門技術,有效訓練及微調模型。 您也可以選擇 PyTorch,使用自有的資料集繼續訓練 WFM。
是,您可以利用 Cosmos 從零開始建立您喜愛的基礎模型或模型架構。首先可以使用 NeMo Curator 進行影片資料預先處理。然後使用 Cosmos 標記化工具將資料壓縮和解碼,處理完畢後,利用 NVIDIA NeMo 訓練或微調模型。透過 NIM 微服務,將實體人工智慧模型整合至雲端、資料中心和工作站的應用程式。
您也可以利用 NVIDIA DGX Cloud 訓練人工智慧模型,並在任何地方大規模部署。
Cosmos 與 Cosmos Nemotron 是 NVIDIA 的模型系列,專為處理及解讀實體世界的視覺效果而設計。
Cosmos 模型是預測及生成具備實體意識之影片的世界基礎模型,協助模擬及瞭解虛擬環境的未來狀態。 相比之下,Cosmos Nemotron 模型是視覺語言模型,專門查詢影像與影片及為其做摘要,讓人工智慧解讀實體與虛擬視覺資料,並做出回應。
兩者相輔相成,實現基於視覺理解的進階人工智慧功能。