Agentes de IA Visual Impulsados por IA Generativa

Agentes de IA Visual Impulsados por IA Generativa

Descubra una colección de workflows de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual enriquecidas e interactivas a una variedad de industrias.

Cargas de Trabajo

Visión por Computador / Analítica de Video

Industrias

Ventas Minoristas / Bienes de Consumo Envasados
Manufactura
Ciudades/Espacios Inteligentes
Área de la Salud y Ciencias de la Vida

Objetivo de Negocio

Retorno de la inversión
Innovación

Productos

Metrópolis de NVIDIA
NVIDIA AI Enterprise

Potencia Una Nueva Ola de Aplicaciones

Las aplicaciones de análisis de vídeo tradicionales y sus workflows de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puede crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de Modelos de Lenguaje de Visión (VLM) está dando lugar a agentes visuales de IA inteligentes y potentes.

¿Qué Es un Agente Visual de IA?

Un agente visual de IA puede combinar las modalidades de visión y lenguaje para comprender las indicaciones del lenguaje natural y realizar respuestas visuales a preguntas. Por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar a una transmisión de vídeo grabada o en directo. Esta comprensión más profunda del contenido de video permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de video y la interpretación de escenarios del mundo real. Estos agentes prometen desbloquear posibilidades de aplicaciones industriales completamente nuevas.

Agilice Todas las Operaciones Industriales

Se desplegarán agentes visuales de IA altamente perceptivos, precisos e interactivos en todas nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico y más. Esto tendrá un tremendo impacto en los equipos de operaciones que buscan tomar mejores decisiones utilizando información más rica generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello impulsado por IA generativa y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.

Desarrolla con NVIDIA NIM

NVIDIA NIM es un conjunto de microservicios de inferencia que incluye API estándar del sector, código específico del dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Ofrece múltiples VLM para crear su agente de IA visual que puede procesar imágenes o videos en vivo o archivados para extraer información procesable utilizando lenguaje natural. Hemos creado un workflow de referencia de un agente visual de IA que puedes probar para acelerar tu proceso de desarrollo.

Uso de Microservicios NVIDIA VIA con NIM

Los microservicios de NVIDIA VIA son la base de la nube para acelerar el desarrollo de agentes de IA visual impulsados por VLM y NIM, ya sea que se implementen en el edge o en la nube. Un ejemplo es un microservicio de resumen que se utiliza para crear agentes visuales de IA que procesan grandes cantidades de vídeos y producen resúmenes seleccionados.

Estos microservicios están disponibles para su descarga, y hay más en camino para ayudar a crear nuevos servicios.

Cree Agentes en el Edge con los Servicios de la Plataforma Jetson

Los desarrolladores pueden crear agentes visuales de IA con tecnología de la plataforma de IA en el edge NVIDIA Jetson™ utilizando la nueva función de NVIDIA JetPack™: Jetson Platform Services. La aplicación de IA generativa se ejecuta completamente en un dispositivo NVIDIA Jetson Orin™ que es capaz de detectar eventos para generar alertas y facilitar sesiones interactivas de preguntas y respuestas.

Cree Agentes Visuales de IA

Explore el workflow de referencia, impulsado por múltiples modelos de lenguaje visual, para crear fácilmente su agente de IA visual.