다양한 업계에 풍부한 대화형 시각적 인식 기능을 제공하기 위해 비전 언어 모델을 사용하는 참조 워크플로우 모음을 살펴보세요.
워크로드
컴퓨터 비전/영상 분석
산업
소매업/소비재
제조
스마트 시티/공간
헬스케어 및 생명 과학
비즈니스 목표
투자 수익률
혁신
제품
NVIDIA Metropolis
NVIDIA AI Enterprise
전통적인 비디오 분석 애플리케이션과 그 개발 워크플로우는 일반적으로 사전 정의된 개체의 선택된 집합만 감지하고 식별하도록 설계되었으며 고정된 동작만을 수행하는 제한된 모델에 구축됩니다. 생성형 AI와 파운데이션 모델을 사용하면 매우 복잡하고 광범위한 인식과 풍부한 상황 이해를 갖춘 모델을 더 적게 사용해 애플리케이션을 구축할 수 있습니다. 차세대 비전 언어 모델(VLM)은 스마트하고 강력한 시각적 AI 에이전트를 탄생시키고 있습니다.
시각적 AI 에이전트는 비전과 언어 양식을 결합해 자연 언어 프롬프트를 이해하고 시각적 질의응답을 수행할 수 있습니다. 예를 들어, 녹화되었거나 실시간인 비디오 스트림에 적용할 수 있는 자연 언어로 광범위한 질문에 답변할 수 있습니다. 이렇게 비디오 콘텐츠를 심층적으로 이해하면 더 정확하고 의미 있는 해석이 가능하기에 비디오 분석 애플리케이션의 기능과 실제 시나리오 해석을 개선할 수 있습니다. 이 에이전트는 완전히 새로운 산업용 애플리케이션의 가능성을 선사하겠다고 약속합니다.
뛰어난 인식 능력과 정확성을 갖추고 있는 대화형 시각적 AI 에이전트는 공장, 창고, 소매점, 공항, 교차로 등에 배치될 것입니다. 이는 자연스러운 상호작용에서 생성되는 풍부한 인사이트를 통해 더 나은 의사결정을 내리려는 운영팀에 엄청난 영향을 미칠 것입니다. 관리자와 운영 팀은 자연 언어로 이러한 에이전트와 소통할 수 있게 됩니다. 모두 생성형 AI와 NVIDIA NIM™ 마이크로서비스를 핵심으로 하는 거대 비전 언어 모델로 구동됩니다.
자세히 보기
시각적 AI 에이전트를 쉽게 구축하기 위해 다양한 시각적 언어 모델로 구동되는 참조 워크플로우를 살펴보세요.