Agentes de IA visual impulsados por IA generativa

Agentes de IA visual impulsados por IA generativa

Descubre una colección de flujos de trabajo de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual avanzadas e interactivas a una amplia gama de sectores.

Cargas de trabajo

Visión informática/análisis de video

Sectores

Comercio minorista/Productos de consumo envasados
Fabricación
Ciudades/espacios inteligentes
Sanidad y biociencias

Objetivo del negocio

Retorno de inversión
Innovación

Productos

NVIDIA Metropolis
NVIDIA AI Enterprise

Impulsar una nueva ola de aplicaciones

Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM) está dando lugar a agentes de IA visuales inteligentes y poderosos.

¿Qué es un agente de IA visual?

Un agente de IA visual puede combinar tanto la visión como las modalidades de lenguaje para comprender las indicaciones de lenguaje natural y realizar preguntas y respuestas visuales. Por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar en relación a una transmisión de vídeo ya sea grabada o en vivo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y la interpretación de escenarios del mundo real. Estos agentes prometen abrir posibilidades de aplicación industrial completamente nuevas.

Agilizar cada operación industrial

Agentes de IA visuales altamente perceptivos, precisos e interactivos se desplegarán en nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un gran impacto en los equipos de operaciones que buscan tomar mejores decisiones utilizando información más rica, generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello con la tecnología generativa de IA y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.

Desarrolla con NVIDIA NIM

NVIDIA NIM es un conjunto de microservicios de inferencia que incluye API estándar del sector, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Ofrece múltiples VLM para crear tu agente de IA visual, capaz de procesar imágenes o vídeos, tanto en vivo como archivados, para extraer información procesable utilizando lenguaje natural. Hemos creado un flujo de trabajo de referencia de un agente de IA visual que puedes probar para acelerar tu proceso de desarrollo.

Utilizar microservicios NVIDIA VIA con NIM

Los microservicios NVIDIA VIA son bloques de construcción nativos de la nube para acelerar el desarrollo de agentes visuales de IA impulsados por VLM y NIM, ya sea para implementarlos en el perímetro o en la nube. Un ejemplo es un microservicio de resumen utilizado para crear agentes de IA visuales que procesan grandes cantidades de vídeos y producen resúmenes elaborados.

Estos microservicios pueden descargarse y hay más en camino para contribuir a la creación de nuevos servicios.

Crea agentes perimetrales con Jetson Platform Services

Los desarrolladores pueden crear agentes visuales de IA con la plataforma de IA en el perímetro NVIDIA Jetson™ utilizando la nueva característica de NVIDIA JetPack™: Jetson Platform Services. La aplicación generativa de IA se ejecuta completamente en un dispositivo NVIDIA Jetson Orin™, capaz de detectar eventos para generar alertas y facilitar sesiones interactivas de preguntas y respuestas.

Crear agentes de IA visual

Explora el flujo de trabajo de referencia impulsado por múltiples modelos de lenguaje visual para crear fácilmente tu agente de IA visual.