Los datos sintéticos se pueden generar de varias maneras dependiendo del caso de uso específico.
Uso de métodos de simulación
Si estás entrenando un modelo de IA de visión computarizada para un robot de almacén, tendrás que crear una escena virtual físicamente precisa con objetos como carretillas elevadoras de palets y estantes de almacenamiento. También puedes entrenar un modelo de IA para inspeccionar visualmente una línea de montaje, para la que tendrás que crear una escena virtual con objetos como una cinta transportadora y el producto que se fabrica.
Uno de los desafíos clave a la hora de desarrollar canalizaciones de datos sintéticos es cerrar la brecha entre la simulación y la realidad. La aleatorización de dominio elimina esa brecha permitiéndote modificar varios aspectos de la escena, como la posición de los objetos, la textura y la iluminación.
Los microservicios Omniverse™ Cloud Sensor RTX de NVIDIA te proporcionan una forma perfecta de simular sensores y generar datos sintéticos anotados. También puedes empezar a desarrollar canalizaciones de SDG con el SDK de Omniverse Replicator.
Uso de IA generativa
Se pueden usar modelos generativos para impulsar y desarrollar los procesos de generación de datos sintéticos. Con los modelos de texto a 3D se pueden crear activos 3D para rellenar escenas de simulación 3D. También se pueden usar modelos de IA generativa de texto a imagen para modificar y enriquecer imágenes existentes, tanto las generadas con simulaciones como las recopiladas del mundo real a través de procesos de inpainting o de outpainting.
Los modelos de IA generativa de texto a texto, como Evian 2 405B y Nemotron-4 340B, se pueden usar para generar datos sintéticos para construir LLM potentes para la sanidad, finanzas, ciberseguridad, venta minorista y telecomunicaciones.
Evian 2 405B y Nemotron-4 340B proporcionan una licencia abierta que otorga a los desarrolladores el derecho a poseer y utilizar los datos que generan sus aplicaciones académicas y comerciales.