물리 AI
세계 파운데이션 모델을 사용하여 물리 AI 개발을 가속화합니다.
개요
NVIDIA CosmosTM는 최첨단 생성형 세계 파운데이션 모델(WFM), 고급 토큰라이저, 가드레일, 가속 데이터 처리 및 큐레이션 파이프라인으로 구성된 플랫폼으로 자율주행 차량(AV) 및 로봇과 같은 물리 AI 시스템의 개발을 가속화하기 위해 구축되었습니다.
이점
Cosmos는 개발자들에게 고성능 세계 파운데이션 모델 과 데이터 파이프라인에 대한 개방적이고 쉬운 액세스를 제공하여 모든 사람이 물리 AI 개발에 액세스할 수 있도록 합니다.
모델
물리 AI 개발을 위해 물리학 인식 비디오 및 세계 상태를 생성하기 위해 특별히 제작된 사전 훈련된 모델 제품군입니다.
여기에서 모델 아키텍처, 개발 리소스 및 가용성에 대해 자세히 알아보세요.
NVIDIA는 로봇 및 자율주행 차량 생태계와 협력하여 세계 파운데이션 모델에서 물리 AI 애플리케이션의 고유한 요구 사항을 반영하는 벤치마크 세트를 개발하고 있습니다.
Cosmos 벤치마크는 로봇 공학 및 자율 시스템에 필수적인 3D 일관성 및 물리 정렬과 같은 고급 기준을 통해 차세대 세계 모델을 평가하도록 설계되었습니다.
비디오 합성을 위한 기본 생성 모델인 비디오LDM(VLDM)과 비교했을 때, Cosmos WFM은 샘슨 에러가 낮고 시간적 안정성이 뛰어나 기하학적 정확도가 우수합니다. 또한 벤치마크는 중력 및 충돌 역학과 같은 물리적 동작을 기반으로 WFM을 평가합니다.
Cosmos WFM은 시각적 일관성 측면에서 VLDM을 지속적으로 능가하며 최대 14배 높은 포즈 추정 성공률을 달성합니다. 디퓨전 모델은 기본적으로 더 높은 충실도를 제공하는 반면, 자동 회귀 모델은 커스텀 모델에 탁월한 성능을 제공합니다.
로봇, 자율주행 차량, 비전 AI 등의 개발자가 Cosmos를 사용하여 업무를 발전시키는 방법을 알아보세요.
Cosmos는 개발자가 AI 모델 교육을 위해 맞춤형 데이터 세트를 구축하도록 돕습니다. 자율주행차의 눈이 덮인 도로 영상이든, 로봇 공학을 위한 바쁜 창고 장면이든, Cosmos는 공간 및 시간 패턴을 이해함으로써 비디오 태그 및 검색을 간소화하여 훈련 데이터 준비를 더 쉽게 합니다.
이를 통해 시간과 비용을 절감하고, 실제 사용에 매우 관련성이 높고 영향력 있는 AI 모델을 제공할 수 있습니다.
개발자는 3D 시뮬레이션 데이터를 활용하여 현실적인 합성 비디오를 생성할 수 있습니다. Omniverse를 사용하면 모델 교육 요구를 나타내는 3D 환경을 만들 수 있습니다. 다음으로, 고도로 맞춤형 합성 데이터 세트를 위해 3D 장면에 의해 정확하게 제어되는 현실적인 비디오를 생성할 수 있습니다.
행동 조건에 따른 비디오 예측을 위해 파인 튜닝된 Cosmos 세계 파운데이션 모델은 물리 AI 시스템에 대한 전략을 정의하고 상태를 행동에 매핑하는 정책 모델의 확장 가능하고 재현 가능한 훈련 및 평가를 가능하게 합니다. 개발자들은 이러한 모델을 사용하여 장애물 탐색 및 물체 조작과 같은 작업을 위해 위험한 실제 테스트 또는 복잡한 시뮬레이션에 대한 의존을 줄이고, 로봇 및 자율주행 차량과 같은 실제 애플리케이션에서 성능을 최적화하고 신뢰성을 보장합니다.
Cosmos는 물리 AI에 고급 예측 지능을 제공하여 시스템이 미래 시나리오를 예측하고 더 현명한 결정을 내릴 수 있도록 지원합니다. 예측 생성을 통해, 과거 데이터와 텍스트 프롬프트를 기반으로 예측 비디오를 생성하는 Cosmos는 물리 AI이 최적의 행동을 선택하여 동적 환경에서 효율성, 적응성 및 안전성을 향상시킬 수 있도록 지원합니다.
NVIDIA Omniverse를 사용하여 개발자는 여러 Cosmos 결과를 시뮬레이션하여 실시간 시나리오를 평가하고 의사 결정을 가속화하고 로봇 및 자율주행 차량과 같은 AI 기반 시스템을 최적화할 수 있습니다. Cosmos와 Omniverse는 함께 물리 AI 모델이 모든 가능한 미래 결과를 탐구할 수 있도록 해주며, 복잡한 환경에서 향상된 정밀도와 신뢰성을 위한 최선의 경로를 선택할 수 있게 해준다.
로봇, 자율주행차, 비전 AI 산업의 모델 개발자들은 Cosmos를 사용하여 물리 AI 개발을 가속화하고 있다.
물리 AI 개발자는 NGC 카탈로그와 Hugging Face에서 사용할 수있는 Cosmos 세계 파운데이션 모델을 이제 시작할 수 있습니다. Cosmos는 또한 NVIDIA NeMo로 파운데이션 모델을 파인 튜닝하기위한 엔드 투 엔드 파이프라인을 제공합니다. 개발자는 GitHub 및 Hugging Face에서 /NVIDIA/cosmos-tokenizer에서 Cosmos 토큰을 사용할 수 있습니다.
Cosmos 세계 파운데이션 모델은 모든 사용자가 NVIDIA 오픈 모델 라이센스를 사용할 수 있습니다.
네, Cosmos는 NeMo를 이용한 파인 튜닝 기능을 지원합니다. LoRA 및 RLHF (인간 피드백으로부터 강화 학습)와 같은 인기있는 기술을 사용하여 모델을 효율적으로 훈련하고 파인 튜닝할 수 있습니다. 또한 PyTorch를 선택하여 자신의 데이터 집합을 사용하여 WFM을 계속 교육할 수 있습니다.
예, Cosmos를 활용하여 원하는 파운데이션 모델 또는 모델 아키텍처로 처음부터 구축할 수 있습니다. 동영상 데이터 전처리를 위해 NeMo Curator를 사용하여 시작할 수 있습니다. 그런 다음 Cosmos 토큰라이저로 데이터를 압축 및 디코딩하고, 데이터를 처리한 후에는 NVIDIA NeMo를 사용하여 모델을 훈련하거나 파인 튜닝할 수 있습니다.
NIM 마이크로서비스를 사용하면 클라우드, 데이터센터 및 워크스테이션 전반의 애플리케이션에서 물리 AI 모델을 쉽게 통합할 수 있습니다.
또한 NVIDIA DGX 클라우드를 사용하여 AI 모델을 트레이닝하고 규모에 맞게 어디든 배포할 수 있습니다.
Cosmos와 Cosmos Nemotron은 모두 물리적 세계의 시각을 처리하고 해석하도록 설계된 NVIDIA 모델 제품군입니다.
Cosmos 모델은 물리 인식 비디오를 예측하고 생성하는 데 중점을 둔 세계 기반 모델로, 가상 환경의 미래 상태를 시뮬레이션하고 이해하는 데 도움을 줍니다. 이와는 대조적으로 Cosmos Nemotron 모델은 이미지와 비디오를 쿼리하고 요약하는 데 특화된 비전 언어 모델로, AI가 물리적 및 가상 시각 데이터를 모두 해석하고 대응할 수 있게 해줍니다.
이 두 모델은 시각적 이해에 기반한 고급 AI 기능을 구현하는 데 있어 서로를 보완합니다.