Descubra una colección de workflows de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual enriquecidas e interactivas a una variedad de industrias.
Cargas de Trabajo
Visión por Computador / Analítica de Video
Industrias
Ventas Minoristas / Bienes de Consumo Envasados
Manufactura
Ciudades/Espacios Inteligentes
Área de la Salud y Ciencias de la Vida
Objetivo de Negocio
Retorno de la inversión
Innovación
Productos
Metrópolis de NVIDIA
NVIDIA AI Enterprise
Las aplicaciones de análisis de video tradicionales y sus workflows de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puede crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia, además de una rica comprensión contextual. Esta nueva generación de modelos de lenguaje de visión (VLM) está dando lugar a agentes visuales de IA inteligentes y potentes.
Un agente visual de IA puede combinar las modalidades de visión y lenguaje para comprender las indicaciones del lenguaje natural y realizar respuestas visuales a preguntas. Puede, por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar a una transmisión de video grabada o en directo. Esta comprensión más profunda del contenido de video permite interpretaciones más precisas y significativas, mediante lo cual mejora la funcionalidad de las aplicaciones de análisis de video y la interpretación de escenarios del mundo real. Estos agentes prometen desbloquear posibilidades de aplicaciones industriales completamente nuevas.
Se desplegarán agentes visuales de IA altamente perceptivos, precisos e interactivos en todas nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico y más. Esto tendrá un tremendo impacto en los equipos de operaciones que buscan tomar mejores decisiones mediante el uso de información más rica generada a partir de interacciones naturales. Los gerentes y equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello impulsado por IA generativa y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.
Enlaces Rápidos
Explore el workflow de referencia, impulsado por múltiples modelos de lenguaje visual, para crear fácilmente su agente de IA visual.