Generación de Datos Sintéticos

Acelere sus workflows de IA.

Cargas de Trabajo

Visión por Computadora/Análisis de Vídeo

Industrias

Manufactura
Hardware/Semiconductores
Automoción/Transporte
Ciudades/Espacios Inteligentes
Robótica

Objetivo Empresarial

Innovación

Productos

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

¿Qué Son Los Datos Sintéticos?

El entrenamiento de cualquier modelo de IA requiere conjuntos de datos diversos, de alta calidad y cuidadosamente etiquetados para lograr la precisión y el rendimiento deseados. En muchos casos, los datos son limitados, restringidos o no están disponibles. Recopilar y etiquetar estos datos del mundo real lleva mucho tiempo y puede ser prohibitivamente caro, lo que ralentiza el desarrollo de modelos físicos de IA y el tiempo necesario para encontrar una solución.

Los datos sintéticos pueden ayudar a abordar este desafío, generados a partir de una simulación por computadora, modelos de IA generativa o una combinación de ambos. Puede consistir en texto, imágenes 2D o 3D en el espectro visual y no visual, que se pueden usar junto con datos del mundo real para entrenar modelos físicos de IA multimodales. Esto puede ahorrarle una cantidad significativa de tiempo de capacitación y reducir en gran medida los costos.

 

Synthetic data

¿Por Qué Utilizar Datos Sintéticos?

Potenciar el Entrenamiento de Modelos de IA

Supere la brecha de datos y acelere el desarrollo de modelos de IA al tiempo que reduce el costo general de adquisición y etiquetado de datos necesarios para entrenar modelos de IA de texto, visuales y físicos.

Privacidad y Seguridad

Aborde los problemas de privacidad y reduzca el sesgo mediante la generación de diversos conjuntos de datos sintéticos para representar el mundo real.

Exactitud

Cree modelos de IA generalizados y de alta precisión entrenando con diversos datos que incluyen casos extremos raros pero cruciales que, de otro modo, serían imposibles de recopilar.

Escalable

Genere datos de forma procedimental con datos de pipelines automatizados que se escalan con su caso de uso en los sectores de manufactura, automoción y robótica, entre otros.

Generación de Datos Sintéticos

Los datos sintéticos se pueden generar de varias maneras, según el caso de uso.

Uso de Métodos de Simulación

Si está entrenando un modelo de IA de visión por computadora para un robot de almacén, deberá crear una escena virtual físicamente precisa con objetos como transpaletas y estantes de almacenamiento. O puede entrenar un modelo de IA para la inspección visual en una línea de montaje, donde tendrá que crear una escena virtual con objetos como una cinta transportadora y el producto que se está produciendo.

Uno de los desafíos clave en el desarrollo de pipelines de datos sintéticos es cerrar la brecha entre la simulación y la realidad. La aleatorización de dominios cierra esa brecha al permitirle controlar varios aspectos de la escena, como la posición de los objetos, la textura y la iluminación.

Los microservicios NVIDIA Omniverse™ Cloud Sensor RTX te ofrecen una forma fluida de simular sensores y generar datos sintéticos anotados. Como alternativa, puedes comenzar con el SDK de Omniverse Replicator para desarrollar pipelines de SDG personalizadas.

Uso de la IA Generativa

Los modelos generativos se pueden utilizar para iniciar y aumentar los procesos de generación de datos sintéticos. Los modelos de texto a 3D permiten la creación de activos 3D para rellenar una escena de simulación 3D. Los modelos de IA generativa de texto a imagen también se pueden utilizar para modificar y aumentar las imágenes existentes, ya sea generadas a partir de simulaciones o recopiladas en el mundo real a través de procedimientos de pintura interna o exterior.

Los modelos de IA generativa de texto a texto, como Evian 2 405B y  Nemotron-4 340B , se pueden utilizar para generar datos sintéticos y crear potentes LLM para el área de la salud, las finanzas, la ciberseguridad, el comercio minorista y las telecomunicaciones.

Evian 2 405B y Nemotron-4 340B proporcionan una licencia abierta, otorgando a los desarrolladores los derechos para poseer y usar los datos generados en sus aplicaciones académicas y comerciales.

Simulación Robótica

En el campo de la robótica, los datos sintéticos se pueden utilizar para entrenar modelos de IA que se despliegan para la percepción, manipulación o agarre de robots, o en robots utilizados para la inspección visual.

Enlaces Rápidos

Imagen cortesía de Techman Robot

Inspección Industrial

Detectar defectos en las piezas fabricadas es extremadamente difícil porque las anomalías suelen ser sutiles o raras y pueden variar mucho. Se pueden crear datos sintéticos basados en defectos reales, como arañazos, astillas o abolladuras, para entrenar modelos de IA con el fin de detectar defectos en las primeras fases del proceso de manufactura.

Image courtesy of Delta Electronics

Enlaces Rápidos

Imagen cortesía de Edge Impulse

Vehículos Autónomos

El despliegue de un vehículo autónomo que pueda navegar de forma segura por su entorno requiere cantidades masivas de datos de entrenamiento, que son extremadamente caros y peligrosos de adquirir en la vida real. Los datos sintéticos se pueden utilizar para desarrollar y probar soluciones de vehículos autónomos en un entorno de simulación, lo que reduce los tiempos de prueba y capacitación y los costos.

Finanzas

Los datos sintéticos permiten un sofisticado modelado de riesgos y detección de fraudes, al tiempo que protegen la información financiera confidencial. Este método es crucial para desarrollar modelos avanzados de IA para la evaluación de riesgos, el comercio algorítmico y la atención al cliente.

Generación Aumentada de Recuperación (RAG)

Las organizaciones de todos los sectores están adoptando la IA generativa para mejorar las experiencias de los clientes y aumentar la eficiencia operativa. Para garantizar que los modelos proporcionen respuestas actualizadas y fundamentadas,  se implementa el pipeline RAG en el workflow de IA. La generación de datos sintéticos puede ayudar a las empresas a evaluar la calidad de su implementación de RAG.

Ecosistema de Socios de Datos Sintéticos

Vea cómo nuestro ecosistema está desarrollando sus propias aplicaciones y servicios de datos sintéticos basados ​​en tecnologías NVIDIA.

Empresas de Datos Sintéticos

Socios de Prestación de Servicios

Empeza Ahora

Crea tu propio canal de generación de datos sintéticos para simulaciones robóticas, inspección industrial y vehículos autónomos utilizando las API o los SDK de Omniverse Cloud.

Resources

Entrenamiento de Datos Sintéticos

Realice este curso a su propio ritmo para aprender a generar datos sintéticos para entrenar modelos de visión por computadora.

Documentación de Datos Sintéticos

Consulte la documentación de Omniverse Replicator para comenzar con la generación de datos sintéticos.

Entrenamiento de LLM en Generación de Datos Sintéticos

Obtenga información sobre los modelos abiertos Llama 3.1 405B y Nemotron-4 340B que los desarrolladores pueden usar para generar datos sintéticos para entrenar grandes modelos de lenguaje (LLM) para aplicaciones comerciales.

Lista de Reproducción de Generación de Datos Sintéticos

Mira las sesiones de NVIDIA GTC sobre la generación de datos sintéticos para obtener más información.