Descubre una colección de flujos de trabajo de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual avanzadas e interactivas a una amplia gama de sectores.
Cargas de trabajo
Visión informática/análisis de video
Sectores
Comercio minorista/Productos de consumo envasados
Fabricación
Ciudades/espacios inteligentes
Sanidad y biociencias
Objetivo del negocio
Retorno de inversión
Innovación
Productos
NVIDIA Metropolis
NVIDIA AI Enterprise
Las aplicaciones de análisis de vídeo tradicionales y sus flujos de trabajo de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puedes crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM) está dando lugar a agentes de IA visuales inteligentes y poderosos.
Un agente de IA de análisis de vídeo puede combinar tanto modalidades de visión como de lenguaje para comprender las indicaciones de lenguaje natural y dar respuestas visuales a preguntas. Por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar en relación a una transmisión de vídeo ya sea grabada o en vivo. Esta comprensión más profunda del contenido de vídeo permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de vídeo y el análisis de escenarios del mundo real. Estos agentes prometen desbloquear información y posibilidades completamente nuevas para la automatización.
Agentes de IA visuales altamente perceptivos, precisos e interactivos se desplegarán en nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico, etc. Esto tendrá un gran impacto en los equipos de operaciones que buscan tomar mejores decisiones utilizando información más rica, generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello con la tecnología generativa de IA y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.
Enlaces rápidos
Explora el flujo de trabajo de referencia impulsado por múltiples modelos de lenguaje visual para crear fácilmente tu agente de IA visual.