Génération de données synthétiques

Accélérez vos workflows d’IA.

Charges de travail

Vision par ordinateur / Analyse vidéo

Industries

Production industrielle
Matériel/Semi-conducteur
Automobile/Transport
Villes et espaces intelligents
Robotique

Objectifs commerciaux

Innovation

Produits

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

Que sont les données synthétiques ?

L’entraînement de tout modèle d’IA nécessite des ensembles de données diversifiés, soigneusement étiquetés et de haute qualité pour atteindre la précision et les performances souhaitées. Les données sont, dans de nombreux cas, limitées, restreintes ou indisponibles. La collecte et l’étiquetage de ces données du monde réel prennent du temps et peuvent être prohibitifs, ce qui ralentit le développement de modèles d’IA physique et accroît les délais de développement de solutions.

Les données synthétiques peuvent contribuer à résoudre ce problème, qu’elles soient issues d’une simulation informatique, de modèles d’IA générative ou d’une combinaison des deux. Elles peuvent être composées de texte, d’images 2D ou 3D dans le spectre visible et non visible, qui peuvent être utilisés conjointement avec des données du monde réel pour entraîner des modèles d’IA physique multimodaux. Cela peut vous faire gagner beaucoup de temps en matière d’entraînement et réduire considérablement les coûts.

Synthetic data

Pourquoi utiliser des données synthétiques ?

Accélérer l’entraînement des modèles d’IA

Comblez le manque de données et accélérez le développement de modèles d’IA tout en réduisant le coût global de l’acquisition et de l’étiquetage des données nécessaires à l’entraînement de modèles d’IA textuels, visuels et physiques.

Confidentialité et sécurité

Résolvez les problèmes de confidentialité et réduisez les biais en générant différents ensembles de données synthétiques pour représenter le monde réel.

Précision

Créez des modèles d’IA généraliste très précis en les entraînant avec des données diverses qui comprennent des cas rares mais cruciaux autrement impossibles à collecter.

Évolutivité

Générez des données de manière procédurale avec des données de pipeline automatisées qui évoluent avec votre cas d’utilisation dans les domaines de la fabrication, de l’automobile et de la robotique, entre autres.

Générer des données synthétiques

Les données synthétiques peuvent être générées de différentes façons, selon le cas d’utilisation.

Utiliser des méthodes de simulation

Si vous entraînez un modèle d’IA de vision par ordinateur pour robot d’entrepôt, vous devrez créer une scène virtuelle physiquement précise avec des objets tels que des transpalettes et des rayons de stockage. Vous pouvez également entraîner un modèle d’IA pour l’inspection visuelle de chaîne d’assemblage, où vous devrez créer une scène virtuelle comportant des objets tels qu’un tapis roulant et le produit en cours de production.

L’une des principales difficultés dans le développement de pipelines de données synthétiques est de combler l’écart entre la simulation et la réalité. La randomisation de domaine permet de combler cet écart en vous permettant de contrôler différents aspects de la scène, comme la position des objets, la texture et l’éclairage.

Les microservices NVIDIA Omniverse™ Cloud Sensor RTX vous offrent un moyen transparent de simuler des capteurs et de générer des données synthétiques annotées. Vous pouvez également commencer à utiliser le SDK Omniverse Replicator pour développer des pipelines SDG personnalisés.

Utiliser l’IA générative

Les modèles génératifs peuvent être utilisés pour amorcer et augmenter les processus de génération de données synthétiques. Les modèles texte-à-3D permettent de créer des ressources 3D pour remplir une scène de simulation 3D. Les modèles d’IA générative texte-à-image peuvent également être utilisés pour modifier et augmenter des images existantes, issues de simulations ou collectées dans le monde réel par le biais de procédures additives ou soustractives.

Les modèles d’IA générative texte-à-texte tels que Evian 2 405B et Nemotron-4 340B peuvent être utilisés pour générer des données synthétiques afin de créer des LLM puissants dans les domaines de la santé, de la finance, de la cybersécurité, du commerce de détail et des télécommunications.

Evian 2 405B et Nemotron-4 340B fournissent une licence ouverte, donnant aux développeurs les droits de posséder et d’utiliser les données générées dans leurs applications d’enseignement et commerciales.

Simulation robotique

Dans le domaine de la robotique, les données synthétiques peuvent être utilisées pour entraîner les modèles d’IA déployés pour la perception, la manipulation ou la saisie des robots, ou sur des robots utilisés pour l’inspection visuelle.

Liens rapides

Image fournie par Techman Robot

Inspection industrielle

La détection de défauts dans les pièces fabriquées est extrêmement difficile car les anomalies sont souvent subtiles ou rares et peuvent varier considérablement. Des données synthétiques basées sur des défauts réels comme des rayures, des éclats ou des bosses peuvent être créées pour former les modèles d’IA à détecter les défauts précocement dans le processus de fabrication.

Image fournie par Delta Electronics

Liens rapides

Image fournie par Edge Impulse

Véhicules autonomes

Le déploiement d’un véhicule autonome pouvant naviguer en toute sécurité dans son environnement nécessite d’énormes quantités de données d’entraînement, dont l’acquisition est extrêmement coûteuse et dangereuse dans la vie réelle. Les données synthétiques peuvent être utilisées pour développer et tester des solutions de véhicules autonomes dans un environnement de simulation, réduisant ainsi la durée des tests et les coûts d’entraînement.

Finance

Les données synthétiques permettent une modélisation des risques et une détection des fraudes sophistiquées tout en protégeant les informations financières sensibles. Cette méthode est cruciale pour développer des modèles d’IA avancés dans le cadre de l’évaluation des risques, du trading algorithmique et de l’assistance à la clientèle.

Génération augmentée de récupération (RAG)

Les entreprises de tous les secteurs adoptent l’IA générative pour améliorer l’expérience client et accroître l’efficacité opérationnelle. Pour s’assurer que les modèles fournissent des réponses à jour et réalistes, le pipeline RAG est implémenté dans le workflow de l’IA. La génération de données synthétiques peut aider les entreprises à évaluer la qualité de leur implémentation RAG.

Écosystème de partenaires de données synthétiques

Découvrez comment notre écosystème développe ses propres applications et services de données synthétiques basés sur les technologies NVIDIA.

Entreprises de données synthétiques

Partenaires en prestation de services

Commencer

Construisez votre propre pipeline de génération de données synthétiques destinées aux simulations robotiques, à l’inspection industrielle et aux véhicules autonomes à l’aide des API Omniverse Cloud ou des SDK.

Ressources

Entraînement sur les données synthétiques

Suivez cette formation à votre rythme pour apprendre à générer des données synthétiques pour l’entraînement de modèles de vision par ordinateur.

Documentation sur les données synthétiques

Consultez la documentation d’Omniverse Replicator pour vous lancer dans la génération de données synthétiques.

Entraînement à la génération de données synthétiques LLM

Découvrez les modèles ouverts Llama 3.1 405B et Nemotron-4 340B que les développeurs peuvent utiliser pour générer des données synthétiques et entraîner des modèles LLM (grands modèles de langage) destinés aux applications commerciales.

Playlist sur la génération de données synthétiques

Regardez les sessions NVIDIA GTC sur la génération de données synthétiques pour en savoir plus.