Erzeugung synthetischer Daten

Beschleunigen Sie Ihre KI-Workflows.

Workloads

Computer Vision / Videoanalyse

Branchen

Fertigung
Hardware/Halbleiter
Automobilindustrie/Transportwesen
Smart Cities/Räume
Robotik

Geschäftsziel

Innovation

Produkte

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

Was sind synthetische Daten?

Das Trainieren von KI-Modellen erfordert sorgfältig gekennzeichnete, hochwertige und vielfältige Datenbestände, um die gewünschte Genauigkeit und Leistung zu erzielen. In vielen Fällen sind die Daten begrenzt, eingeschränkt oder nicht verfügbar. Das Erfassen und Kennzeichnen dieser realen Daten ist zeitaufwändig und kann unerschwinglich teuer sein, was die Entwicklung physischer KI-Modelle verlangsamt und die Zeit bis zu einer Lösung verlängert.

Synthetische Daten, die aus einer Computersimulation, generativen KI-Modellen oder einer Kombination aus beidem gewonnen werden, können helfen, diese Herausforderung zu bewältigen. Sie können Text, 2D- oder 3D-Bilder im visuellen und nicht visuellen Bereich beinhalten, die in Verbindung mit realen Daten verwendet werden können, um multimodale physische KI-Modelle zu trainieren. Dadurch können Sie viel Zeit für das Trainieren sparen und die Kosten erheblich senken.

Synthetic data

Warum synthetische Daten verwenden?

Beschleunigtes Trainieren von KI-Modellen

Überwinden Sie die Datenlücke und beschleunigen Sie die Entwicklung von KI-Modellen, während Sie gleichzeitig die Gesamtkosten für die Beschaffung und Kennzeichnung von Daten senken, die für das Trainieren von Text-, Bild- und physischen KI-Modellen erforderlich sind.

Datenschutz und Sicherheit

Umgehen Sie Datenschutzprobleme und Voreingenommenheit in puncto Datenerfassung durch die Erzeugung verschiedener synthetischer Datenbasen zur Darstellung der realen Welt.

Genauigkeit

Entwickeln Sie hochpräzise, verallgemeinerte KI-Modelle, indem Sie mit verschiedenen Daten trainieren, die seltene, aber wichtige Ausnahmefälle enthalten, die sonst nicht erfasst werden können.

Skalierbar

Generieren Sie prozedural mit einer automatisierten Pipeline Daten, die mit Ihrem Anwendungsfall im Bereich Fertigung, Automobiltechnik, Robotik usw. skalierbar sind.

Synthetische Daten generieren

Anwendung von Simulationsmethoden

Wenn Sie ein Computer-Vision-KI-Modell für einen Lagerroboter trainieren, müssen Sie eine physikalisch akkurate virtuelle Szene mit Objekten wie Hubwagen für Paletten und Lagerregalen anlegen. In einem anderen Fall können Sie ein KI-Modell für die Sichtprüfung an einem Fließband trainieren, wofür Sie eine virtuelle Szene mit Objekten wie einem Förderband und dem produzierten Produkt anlegen müssen.

Eines der größten Probleme bei der Entwicklung von Pipelines für synthetische Daten ist die Überbrückung des Unterschieds zwischen Simulation und Realität. Die zufällige Bestimmung von Umgebungsparametern (Domain Randomization) überbrückt diese Lücke, indem sie es ermöglicht, verschiedene Aspekte der Szene zu steuern, wie z. B. die Position von Objekten, die Textur und die Beleuchtung.

NVIDIA Omniverse™ Cloud-Sensor-RTX-Microservices bieten eine unkomplizierte Möglichkeit, Sensoren zu simulieren und kommentierte synthetische Daten zu erzeugen. Alternativ können Sie auch mit dem Omniverse Replicator SDK beginnen, um eigene SDG-Pipelines zu entwickeln.

Einsatz generativer KI

Generative Modelle können für das Einrichten und die Ergänzung von Prozessen zur Erzeugung synthetischer Daten verwendet werden. „Text-zu-3D“-Modelle ermöglichen die Erzeugung von 3D-Elementen zur Ausstattung einer Szene für 3D-Simulationen. Generative KI-Modelle für die Bild-Erzeugung aus Texteingaben können auch verwendet werden, um vorhandene Bilder zu verändern und zu ergänzen, die entweder aus Simulationen stammen oder in der realen Welt durch prozedurales Inpainting oder Outpainting gesammelt wurden.

Generative Text-zu-Text-KI-Modelle wie Evian 2 405B und Nemotron-4 340B können zur Generierung synthetischer Daten verwendet werden, um leistungsstarke LLMs für die Bereiche Gesundheitswesen, Finanzen, Cybersicherheit, Einzelhandel und Telekommunikation zu erstellen.

Evian 2 405B und Nemotron-4 340B bieten eine offene Lizenz, die Entwicklern das Recht gibt, die erzeugten Daten für wissenschaftliche und kommerzielle Anwendungen zu nutzen.

Robotiksimulation

In der Robotik können synthetische Daten verwendet werden, um KI-Modelle zu trainieren, die für die Wahrnehmung, Manipulation oder das Greifen eines Roboters oder bei Robotern für visuelle Prüfung eingesetzt werden.

Quick-Links

Bild mit freundlicher Genehmigung von Techman Robot

Industrielle Prüfung

Die Erkennung von Fehlern in gefertigten Teilen ist äußerst schwierig, da die Anomalien oft subtil oder selten sind und stark variieren können. Synthetische Daten, die auf tatsächlichen Defekten wie Kratzern, Spänen oder Dellen basieren, können erzeugt werden, um KI-Modelle zu trainieren, die Defekte frühzeitig im Fertigungsprozess erkennen.

Bild mit freundlicher Genehmigung von Delta Electronics

Quick-Links

Bild mit freundlicher Genehmigung von Edge Impulse

Autonome Fahrzeuge

Der Einsatz eines autonomen Fahrzeugs, das sicher in seiner Umgebung navigieren kann, erfordert große Mengen an Trainingsdaten, deren Beschaffung in der Praxis extrem teuer und gefährlich ist. Synthetische Daten können zur Entwicklung und Erprobung von Lösungen für autonome Fahrzeuge in einer Simulationsumgebung verwendet werden, was die Zeit für das Testen und Trainieren verkürzt und die Kosten senkt.

Finanzbranche

Synthetische Daten ermöglichen ausgefeilte Risikomodellierung und Betrugserkennung und schützen gleichzeitig sensible Finanzinformationen. Diese Methode ist entscheidend für die Entwicklung fortgeschrittener KI-Modelle für die Risikobewertung, den algorithmischen Handel und die Kundenbetreuung.

Retrieval Augmented Generation (RAG)

Unternehmen unterschiedlichster Branchen setzen generative KI ein, um das Kundenerlebnis zu verbessern und die betriebliche Effizienz zu steigern. Um sicherzustellen, dass die Modelle aktuelle und fundierte Antworten liefern, wird eine RAG-Pipeline im KI-Workflow implementiert. Die Erzeugung synthetischer Daten kann Unternehmen helfen, die Qualität ihrer RAG-Implementierung zu bewerten.

Partner-Ökosystem für synthetische Daten

Sehen Sie, wie unser Partnernetz eigene Anwendungen und Dienste für synthetische Daten auf der Grundlage von NVIDIA Technologie entwickelt.

Mit synthetischen Daten befasste Unternehmen

Partner für Servicebereitstellung

Jetzt starten

Entwickeln Sie mit Omniverse Cloud APIs oder SDKs Ihre eigene Pipeline zur Erzeugung synthetischer Daten für Robotersimulationen, industrielle Prüfprozesse und autonome Fahrzeuge.

Ressourcen

Trainieren mit synthetischen Daten

In diesem Kurs zum Selbststudium lernen Sie, wie synthetische Daten für das Trainieren von Computer-Vision-Modellen erzeugt werden.

Dokumentation zu synthetischen Daten

Orientieren Sie sich anhand der Omniverse-Replicator-Dokumentation, um mit der Erzeugung synthetischer Daten zu beginnen.

Erzeugung synthetischer Daten für LLM-Training

Erfahren Sie mehr über Llama 3.1 405B und Nemotron-4 340B als offene Modelle, mit denen Entwickler synthetische Daten erzeugen können, um große Sprachmodelle (LLMs) für kommerzielle Anwendungen zu trainieren.

Vortragsliste zur Erzeugung synthetischer Daten

Sehen Sie sich die GTC-Veranstaltungen bzw. -Vorträge von NVIDIA zum Thema Erzeugung synthetischer Daten an, um mehr zu erfahren.