Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
Descubra uma coleção de workflows de referência que usam modelos de linguagem de visão para fornecer recursos avançados e interativos de percepção visual para uma variedade de setores.
Cargas de Trabalho
Visão Computacional / Análise de Vídeo
Indústrias
Varejo/Bens de Consumo Embalados Manufatura Cidades/espaços inteligentes Área da Saúde e Ciências da Vida
Objetivo de negócios
Retorno sobre o investimento Inovação
Produtos
NVIDIA Metropolis NVIDIA AI Enterprise
As aplicações tradicionais de análise de vídeo e seus workflows de desenvolvimento geralmente são criados em modelos limitados e de função fixa, projetados para detectar e identificar apenas um conjunto selecionado de objetos predefinidos. Com IA generativa e modelos básicos, agora você pode criar aplicações com menos modelos que têm uma percepção incrivelmente complexa e ampla e uma rica compreensão contextual. Essa nova geração de VLMs (Vision Language Models) está dando origem a agentes visuais de IA inteligentes e poderosos.
Um agente de IA visual pode combinar as modalidades de visão e linguagem para entender prompts de linguagem natural e realizar respostas visuais a perguntas. Por exemplo, responder a uma ampla gama de perguntas em linguagem natural que podem ser aplicadas em uma transmissão de vídeo gravada ou ao vivo. Essa compreensão mais profunda do conteúdo de vídeo permite interpretações mais precisas e significativas, melhorando a funcionalidade das aplicações de análise de vídeo e a interpretação de cenários do mundo real. Esses agentes prometem desbloquear possibilidades de aplicação industrial totalmente novas.
Agentes visuais de IA altamente perceptivos, precisos e interativos serão implantados em nossas fábricas, armazéns, lojas de varejo, aeroportos, cruzamentos de tráfego e muito mais. Isso terá um tremendo impacto nas equipes de operações que buscam tomar melhores decisões usando insights mais ricos gerados a partir de interações naturais. Os gerentes e as equipes de operações se comunicarão com esses agentes em linguagem natural, todos impulsionados por IA generativa e grandes modelos de linguagem de visão com microsserviços NVIDIA NIM™ em seu núcleo.
Links Rápidos
O NVIDIA NIM é um conjunto de microsserviços de inferência que inclui APIs padrão do setor, código específico de domínio, mecanismos de inferência otimizados e tempo de execução corporativa. Ele oferece vários VLMs para criar seu agente de IA visual que pode processar imagens ou vídeos ao vivo ou arquivados para extrair insights acionáveis usando linguagem natural. Criamos um workflow de referência de um agente de IA visual que você pode experimentar para acelerar seu processo de desenvolvimento.
Os microsserviços NVIDIA VIA são bases da nuvem para acelerar o desenvolvimento de agentes visuais de IA impulsionados por VLMs e NIM, sejam implantados no edge ou na nuvem. Um exemplo é um microsserviço de resumo usado para criar agentes visuais de IA que processam grandes quantidades de vídeos e produzem resumos selecionados.
Esses microsserviços estão disponíveis para download, com mais a caminho para ajudar a criar novos serviços.
Os desenvolvedores podem criar agentes visuais de IA com tecnologia da plataforma de IA no edge NVIDIA Jetson™ usando o novo recurso do NVIDIA JetPack™: Jetson Platform Services. A aplicação de IA generativa está totalmente em execução em um dispositivo NVIDIA Jetson Orin™ capaz de detectar eventos para gerar alertas e facilitar sessões interativas de perguntas e respostas.
Explore o workflow de referência, impulsionado por vários modelos de linguagem visual, para criar facilmente seu agente de IA visual.