Agentes Visuais de IA Impulsionados por IA Generativa

Agentes Visuais de IA Impulsionados por IA Generativa

Descubra uma coleção de workflows de referência que usam modelos de linguagem de visão para fornecer recursos avançados e interativos de percepção visual para uma variedade de setores.

Cargas de Trabalho

Visão Computacional / Análise de Vídeo

Indústrias

Varejo/Bens de Consumo Embalados
Manufatura
Cidades/espaços inteligentes
Área da Saúde e Ciências da Vida

Objetivo de negócios

Retorno sobre o investimento
Inovação

Produtos

NVIDIA Metropolis
NVIDIA AI Enterprise

Potencialize Uma Nova Onda de Aplicações

As aplicações tradicionais de análise de vídeo e seus workflows de desenvolvimento geralmente são criados em modelos limitados e de função fixa, projetados para detectar e identificar apenas um conjunto selecionado de objetos predefinidos. Com IA generativa e modelos básicos, agora você pode criar aplicações com menos modelos que têm uma percepção incrivelmente complexa e ampla e uma rica compreensão contextual. Essa nova geração de VLMs (Vision Language Models) está dando origem a agentes visuais de IA inteligentes e poderosos.

O Que É um Agente de IA Visual?

Um agente de IA visual pode combinar as modalidades de visão e linguagem para entender prompts de linguagem natural e realizar respostas visuais a perguntas. Por exemplo, responder a uma ampla gama de perguntas em linguagem natural que podem ser aplicadas em uma transmissão de vídeo gravada ou ao vivo. Essa compreensão mais profunda do conteúdo de vídeo permite interpretações mais precisas e significativas, melhorando a funcionalidade das aplicações de análise de vídeo e a interpretação de cenários do mundo real. Esses agentes prometem desbloquear possibilidades de aplicação industrial totalmente novas.

Simplifique Todas as Operações Industriais

Agentes visuais de IA altamente perceptivos, precisos e interativos serão implantados em nossas fábricas, armazéns, lojas de varejo, aeroportos, cruzamentos de tráfego e muito mais. Isso terá um tremendo impacto nas equipes de operações que buscam tomar melhores decisões usando insights mais ricos gerados a partir de interações naturais. Os gerentes e as equipes de operações se comunicarão com esses agentes em linguagem natural, todos impulsionados por IA generativa e grandes modelos de linguagem de visão com microsserviços NVIDIA NIM™ em seu núcleo.

Desenvolva com NVIDIA NIM

O NVIDIA NIM é um conjunto de microsserviços de inferência que inclui APIs padrão do setor, código específico de domínio, mecanismos de inferência otimizados e tempo de execução corporativa. Ele oferece vários VLMs para criar seu agente de IA visual que pode processar imagens ou vídeos ao vivo ou arquivados para extrair insights acionáveis usando linguagem natural. Criamos um workflow de referência de um agente de IA visual que você pode experimentar para acelerar seu processo de desenvolvimento.

Use Microsserviços NVIDIA VIA com NIM

Os microsserviços NVIDIA VIA são bases da nuvem para acelerar o desenvolvimento de agentes visuais de IA impulsionados por VLMs e NIM, sejam implantados no edge ou na nuvem. Um exemplo é um microsserviço de resumo usado para criar agentes visuais de IA que processam grandes quantidades de vídeos e produzem resumos selecionados.

Esses microsserviços estão disponíveis para download, com mais a caminho para ajudar a criar novos serviços.

Crie Agentes no Edge com os Serviços da Plataforma Jetson

Os desenvolvedores podem criar agentes visuais de IA com tecnologia da plataforma de IA no edge NVIDIA Jetson™ usando o novo recurso do NVIDIA JetPack™: Jetson Platform Services. A aplicação de IA generativa está totalmente em execução em um dispositivo NVIDIA Jetson Orin™ capaz de detectar eventos para gerar alertas e facilitar sessões interativas de perguntas e respostas.

Crie Agentes Visuais de IA

Explore o workflow de referência, impulsionado por vários modelos de linguagem visual, para criar facilmente seu agente de IA visual.