합성 데이터 생성

AI 워크플로우 속도를 향상하세요.

워크로드

컴퓨터 비전/영상 분석

산업

제조
자동차/수송
농업
스마트 시티/공간
로보틱스

비즈니스 목표

혁신

제품

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

합성 데이터란?

모든 AI 모델을 훈련하려면 원하는 정확도와 성능을 달성하기 위해 신중하게 레이블이 지정된 고품질의 다양한 데이터 세트가 필요합니다. 많은 경우에 데이터는 한정적이거나, 제한적이거나, 사용할 수 없습니다. 이 실제 데이터를 수집하고 레이블을 지정하는 작업은 시간이 오래 걸리고 엄청난 비용이 들 수 있어 물리적 AI 모델의 개발과 해결책을 찾는 시간을 늦출 수 있습니다.

합성 데이터는 컴퓨터 시뮬레이션, 생성형 AI 모델 또는 두 가지 조합에서 비롯한 이 과제를 해결하는 데 도움을 줄 수 있습니다. 이는 시각적 및 비시각적 스펙트럼의 텍스트, 2D 또는 3D 이미지로 구성될 수 있으며, 실제 데이터와 함께 사용해 멀티 모달 물리적 AI 모델을 훈련할 수 있습니다. 이것은 교육 시간을 크게 단축하고 비용을 많이 줄일 수 있습니다.

Synthetic data

합성 데이터를 사용해야 하는 이유

AI 모델 훈련 지원

데이터 격차를 극복하고 AI 모델 개발 속도를 향상하면서 텍스트, 시각적, 물리적 AI 모델을 훈련하는 데 필요한 데이터 획득 및 레이블 지정에 드는 전체 비용을 줄이세요.

개인정보 보호 및 보안

실제 세계를 표현하는 다양한 합성 데이터 세트를 생성하여 개인정보 보호 문제를 해결하고 편견을 줄입니다.

정확도

다른 방식으로는 수집하는 것이 불가능했을 드물지만 중요한 코너 케이스를 포함한 다양한 데이터로 훈련해 매우 정확한 일반화된 AI 모델을 생성하세요.

확장성

제조, 자동차, 로보틱스 등의 활용 사례에 따라 확장되는 자동화된 파이프라인 데이터를 사용해 절차 별로 데이터를 생성하세요.

합성 데이터 생성

합성 데이터는 활용 사례에 따라 다양한 방법으로 생성할 수 있습니다.

시뮬레이션 방법 사용  

창고 로봇을 위한 컴퓨터 비전 AI 모델을 훈련하는 경우, 팔레트 잭 및 스토리지 랙과 같은 물체를 사용해 물리적으로 정확한 가상 장면을 만들어야 합니다. 아니면 컨베이어 벨트와 생산되는 제품과 같은 물체를 포함하는 가상 장면을 만들어야 하는 조립 라인에서 시각적 검사를 위한 AI 모델을 훈련할 수 있습니다.

합성 데이터 파이프라인 개발의 주요 과제 중 하나는 시뮬레이션과 현실 사이의 격차를 해소하는 것입니다. 도메인 무작위화는 물체의 위치, 텍스처, 조명과 같은 장면의 다양한 측면을 제어할 수 있게 해 이러한 격차를 해소합니다.

NVIDIA Omniverse™ Cloud Sensor RTX 마이크로서비스는 센서를 시뮬레이션하고 주석이 달린 합성 데이터를 생성하는 원활한 방법을 제공합니다. 또는 맞춤형 SDG 파이프라인을 개발하기 위해 Omniverse Replicator SDK 사용을 시작할 수 있습니다.

생성형 AI 사용

생성형 모델은 합성 데이터 생성 프로세스를 부트스트랩하고 증강하는 데 사용할 수 있습니다. 텍스트-3D 모델을 사용하면 3D 시뮬레이션 장면을 채우기 위한 3D 에셋을 생성할 수 있습니다. 텍스트를 이미지로 변환하는 생성형 AI 모델은 시뮬레이션에서 생성했거나 절차적 인페인팅 또는 아웃페인팅을 통해 실제 세계에서 수집한 기존 이미지를 수정하고 보강하는 데 사용할 수도 있습니다.

Evian 2 405B 및 Nemotron-4 340B와 같이 텍스트 투 텍스트(Text to text) 생성형 AI 모델은 의료, 금융, 사이버 보안, 소매, 통신을 위한 강력한 LLM을 구축하기 위해 합성 데이터를 생성하는 데 사용할 수 있습니다.

Evian 2 405B와 Nemotron-4 340B는 오픈 라이선스를 제공해 개발자에게 자체적인 학술적 및 상업용 애플리케이션에서 생성된 데이터를 소유하고 사용할 권리를 부여합니다.

로보틱스 시뮬레이션

로보틱스 분야에서는 합성 데이터를 사용해 로봇 인식, 조작 또는 파악을 위해 배포하는 AI 모델이나 시각적 검사에 사용하는 로봇을 훈련할 수 있습니다.

자세히 보기

사진 제공: Techman Robot

산업용 검사

제조된 부품의 결함을 감지하는 것은 매우 어려운데, 그 이유는 이상 현상이 미묘하거나 드물고 매우 다양하기 때문입니다. 긁힌 자국, 흠 또는 찌그러진 곳과 같은 실제 결함을 기반으로 한 합성 데이터를 생성하면 제조 공정 초기에 결함을 잡도록 AI 모델을 훈련할 수 있습니다.

Image courtesy of Delta Electronics

자세히 보기

사진 제공: Edge Impulse

자율주행 자동차

주변 환경을 안전하게 탐색할 수 있는 자율주행차를 배치하려면 방대한 양의 학습 데이터가 필요하며, 이는 현실에서 수집하는 것이 매우 비싸고 위험부담이 큽니다. 합성 데이터는 시뮬레이션 환경에서 자율주행 자동차 솔루션을 개발하고 테스트하는 데 사용할 수 있기에 테스트와 훈련 시간을 줄이고 비용을 절감할 수 있습니다.

금융

합성 데이터는 정교한 위험 모델링과 사기 감지를 가능하게 하는 동시에 민감한 금융 정보를 보호합니다. 이 방법은 위험 평가, 알고리즘 거래, 고객 지원을 위한 고급 AI 모델을 개발하는 데 중요합니다.

검색 증강 생성(RAG)

업계 전반에 걸쳐 조직은 고객 경험을 개선하고 운영 효율성을 높이기 위해 생성형 AI를 채택하고 있습니다. 모델이 최신의 근거에 입각한 응답을 제공할 수 있도록 RAG 파이프라인은 AI 워크플로우에 구현됩니다. 합성 데이터 생성은 기업이 RAG 구현의 품질을 평가하는 데 도움을 줄 수 있습니다.

합성 데이터 파트너 에코시스템

당사 에코시스템이 NVIDIA 기술을 기반으로 자체 합성 데이터 애플리케이션과 서비스를 어떻게 개발하고 있는지 알아보세요.

합성 데이터 기업

서비스 제공 파트너

시작하기

Omniverse Cloud API 또는 SDK를 사용해 로보틱스 시뮬레이션, 산업용 검사, 자율 주행 자동차를 위한 자체 합성 데이터 생성 파이프 라인을 구축하세요.

리소스

합성 데이터 교육

이 자기 주도 과정을 수강하고 컴퓨터 비전 모델을 훈련하기 위해 합성 데이터를 생성하는 방법을 배우세요.

합성 데이터 문서

Omniverse Replicator 문서를 참조해 합성 데이터 생성을 시작하세요.

합성 데이터 생성 LLM 훈련

개발자가 상업용 애플리케이션을 위한 거대 언어 모델(LLM)을 훈련하기 위해 합성 데이터를 생성하는 데 사용할 수 있는 Llama 3.1 405BNemotron-4 340B 개방형 모델에 대해 알아보세요.

합성 데이터 생성 재생 목록

합성 데이터 생성에 대한 NVIDIA GTC 세션을 시청해 자세히 알아보세요.