피지컬 AI를 통해 카메라, 로봇, 자율 주행 자동차와 같은 자율 시스템은 물리적 세계에서 복잡한 동작을 인식, 이해, 추론, 수행 또는 오케스트레이트할 수 있습니다.
이전에는 오토노머스 머신이 주변 환경을 인식하고 감지할 수 없었습니다. 그러나 피지컬 AI를 사용하면 로봇을 실제 환경과 원활하게 상호작용하고 적응하도록 훈련할 수 있습니다.
피지컬 AI를 구축하려면 오토노머스 머신을 훈련할 수 있는 안전하고 통제된 환경을 제공하는 강력한 물리 기반 시뮬레이션이 필요합니다. 이는 복잡한 작업을 수행하는 로봇의 효율성과 정확도를 개선할 뿐만 아니라, 인간과 기계 사이의 보다 자연스러운 상호작용을 촉진하여 실제 애플리케이션에서 접근성과 기능을 개선합니다.
피지컬 AI는 모든 산업을 혁신할 새로운 가능성을 열어가고 있습니다. 예:
로봇: 피지컬 AI는 로봇을 단순한 자동화 수준에서 진정한 자율성으로 끌어올립니다. 실시간으로 감지, 추론, 행동할 수 있도록 지원하면 모든 환경에서 더 높은 안전성, 정밀도, 적응력으로 수행할 수 있습니다.
자율주행 자동차(AV): 피지컬 AI를 통해 자율주행 자동차는 실시간으로 센서 데이터를 처리하여 주변 환경을 인식하고 이해할 수 있습니다. 추론 비전 언어 동작(VLA) 모델은 이 데이터를 사용하여 개방된 고속도로부터 도시 도시 경관에 이르기까지 다양한 환경에서 정보에 입각한 결정을 내립니다. 확장 가능하고 물리적으로 정확한 시뮬레이션 환경에서 AV를 훈련하면 보행자를 더 정확하게 감지하고, 교통 또는 기상 조건에 대응하며, 차선 변경을 자율적으로 탐색하여 다양한 예상치 못한 시나리오에 효과적으로 적응할 수 있습니다.
스마트 공간: 피지컬 AI는 공장, 창고와 같은 대규모 실내외 공간의 기능과 안전을 향상시키고 있습니다. 여기에는 일상적인 활동에 사람, 차량, 로봇의 꾸준한 이동이 포함됩니다. 팀은 고정 카메라와 고급 컴퓨터 비전 모델을 사용하여 이러한 공간 내의 여러 개체와 활동을 추적함으로써, 동적 경로 계획을 개선하고 운영 효율성을 최적화할 수 있습니다. 영상 분석 AI 에이전트는 이상 현상을 자동으로 감지하고 실시간 알림을 제공하여 안전성과 운영 효율성을 더욱 향상시킵니다.
GPT 및 Llama와 같은 생성형 AI 모델은 주로 인터넷에서 수집한 방대한 양의 텍스트와 이미지 데이터를 기반으로 훈련됩니다. 이러한 AI 모델은 인간 언어, 시각 이미지, 추상적인 개념을 생성하는 놀라운 능력을 갖추고 있지만, 실제 세계와 그 규칙에 대한 이해는 제한되어 있습니다.
피지컬 AI는 현재의 생성형 AI에 공간 관계와 우리가 살아가는 3D 세계의 물리적 특성에 대한 이해를 더해 확장시킨 기술입니다. 이미지, 비디오, 텍스트, 음성 또는 실제 센서 데이터와 같은 멀티모달 입력을 받아 오토노머스 머신이 실행할 수 있는 인사이트나 동작으로 변환합니다.
피지컬 AI 모델을 훈련하려면 실제 세계의 공간 관계와 물리적 규칙에 대한 대규모이며 다양하고 물리적으로 정확한 데이터가 필요합니다. 실제 환경에서 이러한 데이터를 수집하는 것은 지루하고, 오류가 발생하기 쉬우며, 위험하고 비용이 많이 들 수 있습니다. 시뮬레이션과 월드 파운데이션 모델(WFM)을 결합하여 사용하면 피지컬 AI 모델 훈련을 위한 합성 데이터를 생성할 수 있습니다.
데이터 생성은 예를 들면 공장과 같은 공간의 디지털 트윈을 생성하는 것으로 시작됩니다. 또한 3D 가우시안 기반 재구성을 사용하여 실제 센서 데이터를 인터랙티브 시뮬레이션에 직접 가져올 수 있습니다. 이 가상 공간에는 센서와 로봇과 같은 오토노머스 머신이 추가됩니다. 실제 시나리오를 재현한 시뮬레이션이 실행되며, 센서는 움직임이나 충돌과 같은 강체 역학, 또는 빛이 주변 환경과 반응하는 방식과 같은 다양한 상호작용을 포착합니다. 그런 다음 생성된 데이터를 WFM으로 증강하고, 선별하고, 주석을 달 수 있습니다.
강화 학습은 오토노머스 머신이 실제 세계에서 작업을 수행할 수 있도록 시뮬레이션 환경에서 기술을 가르칩니다. 이를 통해 오토노머스 머신은 수천 개 또는 수백만 개의 시행착오 작업을 통해 안전하고 빠르게 학습할 수 있습니다.
이 학습 기법은 피지컬 AI 모델이 시뮬레이션에서 원하는 동작을 성공적으로 수행하면 보상을 제공하여, 모델이 지속적으로 적응하고 성능을 개선하게 만듭니다. 반복적인 강화 학습을 통해 자율 기계는 결국 새로운 상황과 예측하지 못한 과제에 적응하여 실제 현장 조건에서 작동할 수 있도록 준비합니다. 시간이 지남에 따라 오토노머스 머신은 상자 포장, 차량 제작, 지원 없이 환경 탐색과 같은 실제 애플리케이션에 필요한 정교한 운동 기술을 개발할 수 있습니다.
OpenUSD(유니버셜 씬 디스크립션)은 여러 산업에 범용 데이터 표준을 제공하여 피지컬 AI에서 핵심적인 역할을 합니다. 이를 통해 상호 운용성, 실시간 협업, 원활한 통합, 복잡한 3D 환경의 효율적인 관리를 가능하게 합니다.
또한 OpenUSD의 시뮬레이션 레디 에셋은 물리적 속성과 의미 속성을 모두 포함하여 에셋을 현실적인 AI 상호작용과 고충실도 훈련에 즉시 준비할 수 있도록 합니다.
피지컬 AI를 활용한 차세대 자율 시스템 구축에는 다수의 특화된 컴퓨터 간의 협력적인 프로세스가 필요합니다.
1. 훈련 컴퓨터: NVIDIA DGX
NVIDIA DGX™는 피지컬 AI 파운데이션 모델을 훈련하는 데 필요한 대규모 컴퓨팅 성능을 제공하는 하드웨어 및 소프트웨어가 완전히 통합된 AI 플랫폼입니다. 개발자는 NVIDIA NGC에서 사용할 수 있는 사전 훈련된 컴퓨터 비전 모델과 함께 실제 또는 합성적으로 생성된 데이터를 사용하여 TensorFlow, PyTorch, Cosmos Curator, NVIDIA TAO와 같은 프레임워크를 사용하여 파운데이션 모델을 훈련하거나 사후 훈련할 수 있습니다. DGX 시스템은 로봇이 집중적인 모델 학습을 통해 자연어를 이해하고, 물체를 인식하며, 복잡한 움직임을 동시에 계획할 수 있도록 지원합니다.
2. 시뮬레이션 및 합성 데이터 생성 컴퓨터: NVIDIA RTX PRO 서버에서 NVIDIA Omniverse 및 Cosmos
가상 3D 환경 구축
실제 환경을 재현하고 물리 AI 훈련에 필요한 합성 데이터를 생성하기 위해서는 고정밀도의 물리 기반 가상 환경이 필요합니다. NVIDIA Omniverse™는 개발자가 OpenUSD 및 NVIDIA RTX™ 렌더링 기술을 기존 소프트웨어 도구 및 시뮬레이션 워크플로우에 통합하여 이러한 3D 환경을 구축할 수 있도록 지원하는 API, SDK, 서비스 플랫폼입니다. 이러한 디지털 트윈을 생성하기 위해 NVIDIA Omniverse NuRec 신경 재구성 라이브러리를 사용하여 실제 센서 데이터를 시뮬레이션에 직접 가져올 수 있습니다. NuRec은 개발자가 장면을 재구성하고, 인터랙티브 시뮬레이션을 렌더링하며, 생성형 AI를 사용하여 재구성 품질을 향상시켜 실제 세계와 시뮬레이션 간의 격차를 해소할 수 있도록 지원합니다.
합성 데이터 생성
실제 세계의 물리적 특성과 행동을 정확하게 반영하는 것 외에도 피지컬 AI를 위한 시뮬레이션 환경은 일상적인 상호작용과 시나리오의 다양성에 일치해야 합니다. 환경 및 객체 도메인 무작위화를 위해 Omniverse Replicator를 사용하세요. 무작위로 장면을 이미지 또는 비디오로 렌더링한 후, NVIDIA Cosmos™ 모델을 사용하여 생성된 데이터를 보강하고, 선별하고, 주석을 추가하여 단일 시나리오를 수백 개로 확장하세요.
시뮬레이션에서 로봇 정책을 훈련하고 검증
시뮬레이션은 물체 조작이나 공간 이동과 같은 다양한 기술을 로봇이 훈련하는 방법을 제공합니다. 이러한 기술은 강화 또는 모방 학습을 통해 모듈형 로봇 학습 프레임워크인 NVIDIA Isaac Lab에서 개선할 수 있습니다.
훈련이 완료되면 모델과 소프트웨어 스택은 NVIDIA Isaac Sim™ 또는 오픈 소스 CARLA AV 시뮬레이터와 같은 참조 오픈 소스 로보틱스 시뮬레이션 프레임워크를 사용하여 시뮬레이션에서 검증할 수 있습니다. NVIDIA Omniverse Blueprint인 "Mega"를 사용하여 대규모 로봇을 시뮬레이션하고 테스트할 수 있습니다.
3. 런타임 컴퓨터: NVIDIA Jetson Thor
마지막으로, 최적화된 스택 및 정책 모델은 NVIDIA Jetson™ 또는 NVIDIA DRIVE AGX™에 배포하여 자율 로봇, 차량 또는 스마트 공간에 임베디드하여 실행할 수 있습니다. Jetson Thor의 컴팩트한 디자인은 실시간 자율 로봇 작동을 위해 센서 데이터를 처리하고, 추론, 계획 및 실행하는 데 필요한 컴퓨팅 성능을 제공합니다. 비디오 검색 및 요약(VSS)을 위한 Metropolis AI Blueprint로 영상 분석 AI 에이전트를 구축하여 공장 성능에 대한 감독을 분석 및 최적화하고 엣지에서 작업자의 안전을 개선하세요. 데이터 센터의 NVIDIA RTX PRO 서버로 더 큰 추론 워크로드를 확장하세요.