Generación de datos sintéticos

Acelera tus flujos de trabajo de IA.

Cargas de trabajo

Visión informática/análisis de video

Sectores

Fabricación
Hardware/semiconductor
Automoción/transporte
Ciudades/espacios inteligentes
Robótica

Objetivo del negocio

Innovación

Productos

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

¿Qué son los datos sintéticos?

Para que el entrenamiento de cualquier modelo de IA tenga la precisión y rendimiento esperados, hay que contar con conjuntos de datos etiquetados minuciosamente, de alta calidad y diversos. En muchos casos, hay pocos o ningún dato, o estos están restringidos. Recopilar y etiquetar estos datos del mundo real puede llevar mucho tiempo y ser excesivamente caro, lo que ralentiza el desarrollo de modelos físicos de IA y aumenta el tiempo necesario para encontrar una solución.

Los datos sintéticos, que se generan con simulación por ordenador, modelos de IA generativa o con una combinación de ambos, pueden ayudar a abordar este desafío. Pueden contener texto, imágenes 2D o 3D en el espectro visual y no visual, y usarse junto con datos del mundo real para entrenar modelos de IA física multimodal. Esto puede ahorrar una cantidad significativa de tiempo de entrenamiento y reducir considerablemente los costes.

Synthetic data

¿Por qué usar datos sintéticos?

Impulsa el entrenamiento de modelos de IA

Supera las limitaciones de datos y acelera el desarrollo de modelos de IA mientras reduces los costes asociados a la adquisición y etiquetado de los datos necesarios para entrenar modelos de IA de texto, visuales y físicos.

Privacidad y seguridad

Aborda los problemas de privacidad y reduce el sesgo que generan diversos conjuntos de datos sintéticos para representar el mundo real.

Precisión

Crea modelos de IA generalizados y altamente precisos entrenando con datos diversos que incluyen casos inusuales, pero cruciales, que de otra manera son imposibles de recopilar.

Escalable

Genera datos automáticamente usando daros de canalizaciones automatizadas que se adaptan a tu caso de uso en fabricación, automoción, robótica, etc.

Generación de datos sintéticos

Los datos sintéticos se pueden generar de varias maneras dependiendo del caso de uso específico.

Uso de métodos de simulación

Si estás entrenando un modelo de IA de visión computarizada para un robot de almacén, tendrás que crear una escena virtual físicamente precisa con objetos como carretillas elevadoras de palets y estantes de almacenamiento. También puedes entrenar un modelo de IA para inspeccionar visualmente una línea de montaje, para la que tendrás que crear una escena virtual con objetos como una cinta transportadora y el producto que se fabrica.

Uno de los desafíos clave a la hora de desarrollar canalizaciones de datos sintéticos es cerrar la brecha entre la simulación y la realidad. La aleatorización de dominio elimina esa brecha permitiéndote modificar varios aspectos de la escena, como la posición de los objetos, la textura y la iluminación.

Los microservicios Omniverse™ Cloud Sensor RTX de NVIDIA te proporcionan una forma perfecta de simular sensores y generar datos sintéticos anotados. También puedes empezar a desarrollar canalizaciones de SDG con el SDK de Omniverse Replicator.

Uso de IA generativa

Se pueden usar modelos generativos para impulsar y desarrollar los procesos de generación de datos sintéticos. Con los modelos de texto a 3D se pueden crear activos 3D para rellenar escenas de simulación 3D. También se pueden usar modelos de IA generativa de texto a imagen para modificar y enriquecer imágenes existentes, tanto las generadas con simulaciones como las recopiladas del mundo real a través de procesos de inpainting o de outpainting.

Los modelos de IA generativa de texto a texto, como Evian 2 405B y Nemotron-4 340B, se pueden usar para generar datos sintéticos para construir LLM potentes para la sanidad, finanzas, ciberseguridad, venta minorista y telecomunicaciones.

Evian 2 405B y Nemotron-4 340B proporcionan una licencia abierta que otorga a los desarrolladores el derecho a poseer y utilizar los datos que generan sus aplicaciones académicas y comerciales.

Simulación de robótica

En el campo de la robótica, los datos sintéticos se pueden utilizar para entrenar modelos de IA que se implementan para mejorar la percepción, manipulación o agarre de los robots, o para robots de inspección visual.

Enlaces rápidos

Imagen cortesía de Techman Robot

Inspección industrial

Detectar defectos en piezas fabricadas es extremadamente difícil porque las anomalías son a menudo sutiles o raras, y pueden ser muy diferentes. Se pueden crear datos sintéticos basados en defectos reales, como arañazos, esquirlas o abolladuras, para entrenar a los modelos de IA para detectar defectos al principio del proceso de fabricación.

Imagen cortesía de Delta Electronics

Enlaces rápidos

Imagen cortesía de Edge Impulse

Vehículos autónomos

Para desplegar un vehículo autónomo que pueda desplazarse de forma segura por sus alrededores hace falta una enorme cantidad de datos de entrenamiento, que son extremadamente caros y peligrosos de obtener en la vida real. Se pueden utilizar datos sintéticos para desarrollar y probar soluciones de vehículos autónomos en un entorno de simulación y, así, reducir los tiempos y los costes de las pruebas y entrenamientos.

Finanzas

Los datos sintéticos se pueden usar para crear un modelo sofisticado de riesgos y de detección de fraudes, mientras se protege la información financiera confidencial. Este método es crucial para desarrollar modelos avanzados de IA para la evaluación de riesgos, la realización de operaciones bursátiles con algoritmos y la atención al cliente.

Generación aumentada por recuperación (RAG)

Organizaciones de todos los sectores están adoptando la IA generativa para mejorar las experiencias de los clientes y aumentar la eficiencia operativa. Para garantizar que los modelos proporcionan respuestas actualizadas y fundamentadas, se implementa el proceso de RAG en el flujo de trabajo de IA. La generación de datos sintéticos puede ayudar a las empresas a evaluar la calidad de su implementación de RAG.

Ecosistema de socios de datos sintéticos

Descubre cómo nuestro ecosistema está desarrollando sus propias aplicaciones y servicios de datos sintéticos basados en las tecnologías de NVIDIA.

Empresas de datos sintéticos

Socios de prestación de servicios

Empezar

Crea tu propio canal de generación de datos sintéticos para simulaciones de robótica, inspección industrial y vehículos autónomos con los SDK o las API de Omniverse Cloud.

Recursos

Entrenamiento de datos sintéticos

Realiza este curso a tu ritmo para aprender a generar datos sintéticos para entrenar modelos de visión informática.

Documentación sobre datos sintéticos

Consulta la documentación de Omniverse Replicator para empezar a generar datos sintéticos.

Generación de datos sintéticos para entrenar LLM

Descubre los modelos abiertos Llama 3.1 405B y Nemotron-4 340B que los desarrolladores pueden usar para generar datos sintéticos para entrenar modelos lingüísticos de gran tamaño (LLM) para aplicaciones comerciales.

Lista de reproducción de generación de datos sintéticos

Para obtener más información, mira las sesiones de NVIDIA GTC sobre generación de datos sintéticos.