생성형 AI 기반 시각적 AI 에이전트

다양한 업계에 풍부한 대화형 시각적 인식 기능을 제공하기 위해 비전 언어 모델을 사용하는 참조 워크플로우 모음을 살펴보세요.

워크로드

컴퓨터 비전/영상 분석

산업

소매업/소비재
제조
스마트 시티/공간
헬스케어 및 생명 과학

비즈니스 목표

투자 수익률
혁신

제품

NVIDIA Metropolis
NVIDIA AI Enterprise

차세대 애플리케이션의 위력

전통적인 비디오 분석 애플리케이션과 그 개발 워크플로우는 일반적으로 사전 정의된 개체의 선택된 집합만 감지하고 식별하도록 설계되었으며 고정된 동작만을 수행하는 제한된 모델에 구축됩니다. 생성형 AI와 파운데이션 모델을 사용하면 매우 복잡하고 광범위한 인식과 풍부한 상황 이해를 갖춘 모델을 더 적게 사용해 애플리케이션을 구축할 수 있습니다. 차세대 비전 언어 모델(VLM)은 스마트하고 강력한 시각적 AI 에이전트를 탄생시키고 있습니다.

시각적 AI 에이전트란?

시각적 AI 에이전트는 비전과 언어 양식을 결합해 자연 언어 프롬프트를 이해하고 시각적 질의응답을 수행할 수 있습니다. 예를 들어, 녹화되었거나 실시간인 비디오 스트림에 적용할 수 있는 자연 언어로 광범위한 질문에 답변할 수 있습니다. 이렇게 비디오 콘텐츠를 심층적으로 이해하면 더 정확하고 의미 있는 해석이 가능하기에 비디오 분석 애플리케이션의 기능과 실제 시나리오 해석을 개선할 수 있습니다. 이 에이전트는 완전히 새로운 산업용 애플리케이션의 가능성을 선사하겠다고 약속합니다.

모든 산업 운영 간소화

뛰어난 인식 능력과 정확성을 갖추고 있는 대화형 시각적 AI 에이전트는 공장, 창고, 소매점, 공항, 교차로 등에 배치될 것입니다. 이는 자연스러운 상호작용에서 생성되는 풍부한 인사이트를 통해 더 나은 의사결정을 내리려는 운영팀에 엄청난 영향을 미칠 것입니다. 관리자와 운영 팀은 자연 언어로 이러한 에이전트와 소통할 수 있게 됩니다. 모두 생성형 AI와 NVIDIA NIM™ 마이크로서비스를 핵심으로 하는 거대 비전 언어 모델로 구동됩니다.

NVIDIA NIM으로 개발

NVIDIA NIM은 업계 표준 API, 도메인별 코드, 최적화된 추론 엔진, 엔터프라이즈 런타임을 포함하는 추론 마이크로서비스의 집합입니다. 이는 실시간 또는 보관된 이미지 또는 비디오를 처리해 자연 언어로 실행 가능한 인사이트를 추출할 수 있는 시각적 AI 에이전트를 구축하기 위한 다양한 VLM을 제공합니다. 당사는 개발 프로세스 속도를 향상하기 위해 체험해 볼 수 있는 시각적 AI 에이전트의 참조 워크플로우를 만들었습니다.

NIM으로 NVIDIA VIA 마이크로서비스 사용하기

NVIDIA VIA 마이크로서비스는 엣지 또는 클라우드에 배포되며 VLM과 NIM으로 구동되는 시각적 AI 에이전트의 개발 속도를 향상하기 위한 클라우드 네이티브 구성 요소입니다. 한 예로는 많은 양의 비디오를 처리하고 엄선된 요약을 생성하는 시각적 AI 에이전트를 구축하기 위해 사용하는 요약 마이크로서비스가 있습니다.

이 마이크로서비스는 다운로드할 수 있습니다. 또한, 새로운 서비스를 구축하는 데 도움을 줄 더 많은 마이크로서비스를 출시할 예정입니다.

Jetson Platform Services를 사용해 엣지 에이전트 구축

개발자는 NVIDIA JetPack™의 새로운 기능인 Jetson Platform Services를 사용해 NVIDIA Jetson™ 엣지 AI 플랫폼으로 구동되는 시각적 AI 에이전트를 구축할 수 있습니다. 생성형 AI 애플리케이션은 이벤트를 감지하여 경고를 생성하고 대화형 Q&A 세션을 가능하게 만드는 NVIDIA Jetson Orin™ 장치에서 완전히 실행됩니다.

시각적 AI 에이전트 구축

시각적 AI 에이전트를 쉽게 구축하기 위해 다양한 시각적 언어 모델로 구동되는 참조 워크플로우를 살펴보세요.