Les données synthétiques peuvent être générées de différentes façons, selon le cas d’utilisation.
Utiliser des méthodes de simulation
Si vous entraînez un modèle d’IA de vision par ordinateur pour robot d’entrepôt, vous devrez créer une scène virtuelle physiquement précise avec des objets tels que des transpalettes et des rayons de stockage. Vous pouvez également entraîner un modèle d’IA pour l’inspection visuelle de chaîne d’assemblage, où vous devrez créer une scène virtuelle comportant des objets tels qu’un tapis roulant et le produit en cours de production.
L’une des principales difficultés dans le développement de pipelines de données synthétiques est de combler l’écart entre la simulation et la réalité. La randomisation de domaine permet de combler cet écart en vous permettant de contrôler différents aspects de la scène, comme la position des objets, la texture et l’éclairage.
Les microservices NVIDIA Omniverse™ Cloud Sensor RTX vous offrent un moyen transparent de simuler des capteurs et de générer des données synthétiques annotées. Vous pouvez également commencer à utiliser le SDK Omniverse Replicator pour développer des pipelines SDG personnalisés.
Utiliser l’IA générative
Les modèles génératifs peuvent être utilisés pour amorcer et augmenter les processus de génération de données synthétiques. Les modèles texte-à-3D permettent de créer des ressources 3D pour remplir une scène de simulation 3D. Les modèles d’IA générative texte-à-image peuvent également être utilisés pour modifier et augmenter des images existantes, issues de simulations ou collectées dans le monde réel par le biais de procédures additives ou soustractives.
Les modèles d’IA générative texte-à-texte tels que Evian 2 405B et Nemotron-4 340B peuvent être utilisés pour générer des données synthétiques afin de créer des LLM puissants dans les domaines de la santé, de la finance, de la cybersécurité, du commerce de détail et des télécommunications.
Evian 2 405B et Nemotron-4 340B fournissent une licence ouverte, donnant aux développeurs les droits de posséder et d’utiliser les données générées dans leurs applications d’enseignement et commerciales.