합성 데이터는 활용 사례에 따라 다양한 방법으로 생성할 수 있습니다.
시뮬레이션 방법 사용
창고 로봇을 위한 컴퓨터 비전 AI 모델을 훈련하는 경우, 팔레트 잭 및 스토리지 랙과 같은 물체를 사용해 물리적으로 정확한 가상 장면을 만들어야 합니다. 아니면 컨베이어 벨트와 생산되는 제품과 같은 물체를 포함하는 가상 장면을 만들어야 하는 조립 라인에서 시각적 검사를 위한 AI 모델을 훈련할 수 있습니다.
합성 데이터 파이프라인 개발의 주요 과제 중 하나는 시뮬레이션과 현실 사이의 격차를 해소하는 것입니다. 도메인 무작위화는 물체의 위치, 텍스처, 조명과 같은 장면의 다양한 측면을 제어할 수 있게 해 이러한 격차를 해소합니다.
NVIDIA Omniverse™ Cloud Sensor RTX 마이크로서비스는 센서를 시뮬레이션하고 주석이 달린 합성 데이터를 생성하는 원활한 방법을 제공합니다. 또는 맞춤형 SDG 파이프라인을 개발하기 위해 Omniverse Replicator SDK 사용을 시작할 수 있습니다.
생성형 AI 사용
생성형 모델은 합성 데이터 생성 프로세스를 부트스트랩하고 증강하는 데 사용할 수 있습니다. 텍스트-3D 모델을 사용하면 3D 시뮬레이션 장면을 채우기 위한 3D 에셋을 생성할 수 있습니다. 텍스트를 이미지로 변환하는 생성형 AI 모델은 시뮬레이션에서 생성했거나 절차적 인페인팅 또는 아웃페인팅을 통해 실제 세계에서 수집한 기존 이미지를 수정하고 보강하는 데 사용할 수도 있습니다.
Evian 2 405B 및 Nemotron-4 340B와 같이 텍스트 투 텍스트(Text to text) 생성형 AI 모델은 의료, 금융, 사이버 보안, 소매, 통신을 위한 강력한 LLM을 구축하기 위해 합성 데이터를 생성하는 데 사용할 수 있습니다.
Evian 2 405B와 Nemotron-4 340B는 오픈 라이선스를 제공해 개발자에게 자체적인 학술적 및 상업용 애플리케이션에서 생성된 데이터를 소유하고 사용할 권리를 부여합니다.