Agents d'IA visuelle reposant sur l'IA générative

Agents d'IA visuelle reposant sur l'IA générative

Découvrez une collection de workflows de référence qui exploitent les modèles de langage de vision (VLM) pour fournir des capacités avancées et interactives à des fins de perception visuelle dans de nombreux secteurs.

Charges de travail

Vision par ordinateur / Analyse vidéo

Industries

Vente au détail/Biens de consommation courante
Production industrielle
Villes et espaces intelligents
Santé et Sciences de la vie

Objectif commercial

Retour sur investissement
Innovation

Produits

NVIDIA Metropolis
NVIDIA AI Enterprise

Alimentez une nouvelle vague d'applications

Les applications d'analyse vidéo traditionnelles et leurs workflows de développement reposent généralement sur des modèles limités à fonction fixe conçus pour détecter et identifier uniquement un ensemble d'objets prédéfinis. Grâce à l’IA générative et aux modèles de fondation, vous pouvez désormais concevoir des applications avec moins de modèles pour mettre en œuvre des services de perception incroyablement avancés avec une excellente compréhension contextuelle. Cette nouvelle génération de modèles de langage de vision (VLM) donne naissance à des agents d’IA visuelle aussi intelligents que puissants.

Qu'est-ce qu'un agent d'IA visuelle ?

Un agent d’IA visuelle peut combiner des modalités de vision et de langage pour comprendre des requêtes en langage naturel et traiter des questions-réponses en mode visuel, par exemple pour répondre à un large éventail de questions en langage naturel à des fins d'exploitation avec un flux vidéo enregistré ou en direct. Cette compréhension plus approfondie du contenu vidéo permet des interprétations plus précises et plus significatives, améliorant ainsi la fonctionnalité des applications d'analyse vidéo et l'interprétation de scénarios réels. Ces agents ouvrent de nouvelles possibilités pour les applications industrielles.

Rationalisez chaque opération industrielle

Des agents d’IA visuelle dotés d'un niveau élevé de perception, de précision et d'interactivité peuvent être déployés dans les usines, entrepôts, magasins, aéroports, intersections routières et bien d'autres lieux. Ces agents présentent un impact significatif pour les équipes opérationnelles qui cherchent à prendre de meilleures décisions en utilisant des informations plus riches générées via des interactions naturelles. Les responsables et les équipes opérationnelles peuvent communiquer en langage naturel avec ces agents, qui sont alimentés par l'IA générative et de grands modèles de langage de vision avec les microservices NVIDIA NIM TM en tant que composant central..

Développez avec NVIDIA NIM

NVIDIA NIM constitue un ensemble de microservices d'inférence qui comprend des API standard, du code spécifique à un domaine, des moteurs d'inférence optimisés et un environnement d'exécution d'entreprise. Cet environnement fournit de multiples VLM pour la conception de votre agent d'IA visuelle afin d'optimiser le traitement des images ou des vidéos en direct ou archivées pour extraire des informations exploitables en utilisant un langage naturel. Nous avons créé un workflow de référence d’un agent d’IA visuelle que vous pouvez essayer pour accélérer votre processus de développement.

Utilisez les microservices NVIDIA VIA avec NIM

Les microservices NVIDIA VIA sont des modules natifs dans le Cloud qui accélèrent le développement d'agents d'IA visuelle alimentés par des VLM et des NIM, qu'ils soient déployés sur Edge ou dans le Cloud. Il est ainsi possible, par exemple, de mettre à profit un microservice de synthèse textuelle pour créer des agents d’IA visuelle à même de traiter de grandes quantités de vidéos pour produire des synthèses soignées.

Ces microservices sont disponibles maintenant au téléchargement. Des microservices additionnels sont en cours de développement pour vous aider à créer de toutes nouvelles applications.

Mettez en œuvre des agents à l'Edge avec les services de plateforme Jetson

Les développeurs peuvent créer des agents d'IA visuelle alimentés par la plateforme d'IA à l'Edge NVIDIA Jetson™ en utilisant la nouvelle fonctionnalité NVIDIA JetPack™ via les services de plateforme Jetson. L’application d’IA générative qui en résulte fonctionne pleinement sur un appareil NVIDIA Jetson Orin™ capable de détecter des événements pour générer des alertes et faciliter des sessions Q&A interactives.

Concevez des agents d'IA visuelle

Découvrez le workflow de référence de NVIDIA qui fait appel à différents modèles de langage visuel pour faciliter la conception de votre agent d'IA visuelle.