Generative KI-gestützte visuelle KI-Agenten

Generative KI-gestützte visuelle KI-Agenten

Nutzen Sie unsere Sammlung an Referenz-Workflows mit Vision-Sprachmodellen (Vision Language Models) für vielfältige, interaktive visuelle Wahrnehmungsfunktionen in unterschiedlichsten Branchen.

Workloads

Computer Vision/Videoanalyse

Branchen

Einzelhandel/Konsumgüter
Fertigung
Smart Citys/Räume
Gesundheitswesen und Biowissenschaftens

Geschäftsziel

Return on Investment (Rentabilität) Innovation

Produkte

NVIDIA Metropolis
NVIDIA AI Enterprise

Bringen Sie eine neue Welle von Anwendungen ins Rollen

Herkömmliche Videoanalysen und ihre Entwicklungs-Workflows basieren in der Regel auf einer begrenzten Gruppe von Modellen mit festen Funktionen, die darauf ausgerichtet sind, vordefinierte Objekte zu erkennen und zu identifizieren. Mit generativen KI- und Grundlagenmodellen können Sie jetzt Anwendungen mit weniger Modellen erstellen. Diese weisen eine unglaublich komplexe und breite Wahrnehmung und ein umfassendes kontextuelles Verständnis auf. Diese neuere Generation von Vision Language Models (VLMs) führt zu intelligenten, leistungsstarken visuellen KI-Agenten.

Was ist ein Visual AI Agent?

Ein visueller KI-Agent oder Visual AI Agewnt kann sowohl Vision als auch Sprachmodalitäten kombinieren, um Aufforderungen in natürlicher Sprache zu verstehen und visuelle Fragen zu beantworten. Dazu zählt zum Beispiel die Beantwortung einer Vielzahl von Fragen in natürlicher Sprache, die sowohl auf ein aufgezeichnetes Video als auch einen Live-Video-Stream angewendet werden kann. Dieses tiefere Verständnis von Videoinhalten ermöglicht genauere und aussagekräftige Interpretationen, verbessert die Funktionalität von Videoanalyseanwendungen und die Interpretation von realen Szenarien. Diese Mittel versprechen völlig neue industrielle Anwendungsmöglichkeiten.

Optimieren Sie sämtliche industrielle Vorgänge

Hochgradig wahrnehmende, genaue und interaktive visuelle KI-Agenten werden in unseren Fabriken, Lagern, Einzelhandelsgeschäften, Flughäfen, Verkehrskreuzungen und in anderen Bereichen zum Einsatz kommen. Dies wird einen enormen Einfluss auf Einsatzteams haben, die auf Basis umfassenderer Erkenntnisse aus natürlichen Interaktionen ihre Entscheidungen verbessern können. In natürlicher Sprache kommunizieren dann die Manager und Einsatzteams mit diesen Agenten, welche alle auf generativer KI und großen Vision-Sprachmodellen mit NVIDIA NIM™-Microservices basieren.

Mit NVIDIA NIM entwickeln

NVIDIA NIM ist ein Satz von Inferenz-Microservices, die branchenübliche APIs, domänenspezifischen Code, optimierte Inferenz-Engines und Enterprise Runtime umfassen. Er bietet mehrere VLMs für den Aufbau Ihres visuellen KI-Agenten, der Live- oder archivierte Bilder oder Videos verarbeiten kann, um verwertbare Erkenntnisse mit natürlicher Sprache zu extrahieren. Wir haben einen Referenz-Workflow eines visuellen KI-Agenten erstellt. Sie können ihn ausprobieren, um Ihren Entwicklungsprozess zu beschleunigen.

Verwenden Sie NVIDIA VIA Microservices mit NIM

NVIDIA VIA-Microservices sind Cloud-native Bausteine zur Beschleunigung der Entwicklung von visuellen KI-Agenten, die von VLMs und NIMs unterstützt werden. Es macht dabei keinen Unterschied, ob sie am Edge oder in der Cloud bereitgestellt werden. Ein Beispiel hierfür ist ein Zusammenfassungs-Microservice. Er wird zum Erstellen von solchen visuellen KI-Agenten verwendet, die große Mengen an Videos verarbeiten und kuratierte Zusammenfassungen erstellen.

Diese Microservices stehen zum Download zur Verfügung. Weitere sind in der Entstehung, um die Erstellung neuer Dienste zu unterstützen.

Erstellen von Edge Agents mit Jetson Platform Services

Entwickler können visuelle KI-Agenten erstellen, die von der NVIDIA Jetson™ Edge AI-Plattform unterstützt werden, und zwar mithilfe der neuen Funktion von NVIDIA JetPack™– Jetson Platform Services. Die generative KI-Anwendung läuft vollständig auf einem NVIDIA Jetson Orin™-Gerät, das Ereignisse erkennen kann, um Warnmeldungen zu generieren und interaktive Fragen und Antworten-Runden zu ermöglichen.

Erstellen von visuellen AI-Agenten

Erkunden Sie den Referenz-Workflow, der von mehreren Visual Language Models unterstützt wird, um Ihren visuellen AI-Agenten einfach zu erstellen.