Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
Descubra una colección de workflows de referencia que utilizan modelos de lenguaje de visión para ofrecer capacidades de percepción visual enriquecidas e interactivas a una variedad de industrias.
Cargas de Trabajo
Visión por Computador / Analítica de Video
Industrias
Ventas Minoristas / Bienes de Consumo Envasados Manufactura Ciudades/Espacios Inteligentes Área de la Salud y Ciencias de la Vida
Objetivo de Negocio
Retorno de la inversión Innovación
Productos
Metrópolis de NVIDIA NVIDIA AI Enterprise
Las aplicaciones de análisis de vídeo tradicionales y sus workflows de desarrollo suelen basarse en modelos limitados de función fija que están diseñados para detectar e identificar solo un conjunto selecto de objetos predefinidos. Con la IA generativa y los modelos básicos, ahora puede crear aplicaciones con menos modelos que tengan una percepción increíblemente compleja y amplia y una rica comprensión contextual. Esta nueva generación de Modelos de Lenguaje de Visión (VLM) está dando lugar a agentes visuales de IA inteligentes y potentes.
Un agente visual de IA puede combinar las modalidades de visión y lenguaje para comprender las indicaciones del lenguaje natural y realizar respuestas visuales a preguntas. Por ejemplo, responder a una amplia gama de preguntas en lenguaje natural que se pueden aplicar a una transmisión de vídeo grabada o en directo. Esta comprensión más profunda del contenido de video permite interpretaciones más precisas y significativas, mejorando la funcionalidad de las aplicaciones de análisis de video y la interpretación de escenarios del mundo real. Estos agentes prometen desbloquear posibilidades de aplicaciones industriales completamente nuevas.
Se desplegarán agentes visuales de IA altamente perceptivos, precisos e interactivos en todas nuestras fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico y más. Esto tendrá un tremendo impacto en los equipos de operaciones que buscan tomar mejores decisiones utilizando información más rica generada a partir de interacciones naturales. Los gerentes y los equipos de operaciones se comunicarán con estos agentes en lenguaje natural, todo ello impulsado por IA generativa y grandes modelos de lenguaje de visión con microservicios NVIDIA NIM™ en su núcleo.
Enlaces Rápidos
NVIDIA NIM es un conjunto de microservicios de inferencia que incluye API estándar del sector, código específico del dominio, motores de inferencia optimizados y tiempo de ejecución empresarial. Ofrece múltiples VLM para crear su agente de IA visual que puede procesar imágenes o videos en vivo o archivados para extraer información procesable utilizando lenguaje natural. Hemos creado un workflow de referencia de un agente visual de IA que puedes probar para acelerar tu proceso de desarrollo.
Los microservicios de NVIDIA VIA son la base de la nube para acelerar el desarrollo de agentes de IA visual impulsados por VLM y NIM, ya sea que se implementen en el edge o en la nube. Un ejemplo es un microservicio de resumen que se utiliza para crear agentes visuales de IA que procesan grandes cantidades de vídeos y producen resúmenes seleccionados.
Estos microservicios están disponibles para su descarga, y hay más en camino para ayudar a crear nuevos servicios.
Los desarrolladores pueden crear agentes visuales de IA con tecnología de la plataforma de IA en el edge NVIDIA Jetson™ utilizando la nueva función de NVIDIA JetPack™: Jetson Platform Services. La aplicación de IA generativa se ejecuta completamente en un dispositivo NVIDIA Jetson Orin™ que es capaz de detectar eventos para generar alertas y facilitar sesiones interactivas de preguntas y respuestas.
Explore el workflow de referencia, impulsado por múltiples modelos de lenguaje visual, para crear fácilmente su agente de IA visual.