Os dados sintéticos podem ser gerados de várias maneiras, dependendo do caso de uso.
Usando Métodos de Simulação
Se você estiver treinando um modelo de IA de visão computacional para um robô de armazém, precisará criar uma cena virtual fisicamente precisa com objetos como porta-paletes e racks de armazenamento. Ou você pode treinar um modelo de IA para inspeção visual em uma linha de montagem, onde precisará criar uma cena virtual com objetos como uma esteira transportadora e o produto que está sendo produzido.
Um dos principais desafios no desenvolvimento de pipelines de dados sintéticos é fechar a lacuna entre o simulador e o real. A randomização de domínio preenche essa lacuna, permitindo que você controle vários aspectos da cena, como a posição dos objetos, a textura e a iluminação.
Os microsserviços NVIDIA Omniverse™ Cloud Sensor RTX oferecem uma maneira perfeita de simular sensores e gerar dados sintéticos anotados. Como alternativa, você pode começar a usar o SDK do Omniverse Replicator para desenvolver pipelines de ODS personalizados.
Usando IA Generativa
Os modelos generativos podem ser usados para inicializar e aumentar os processos de geração de dados sintéticos. Os modelos de texto para 3D permitem a criação de ativos 3D para preencher uma cena de simulação 3D. Os modelos de IA generativa de texto para imagem também podem ser usados para modificar e aumentar as imagens existentes, geradas a partir de simulações ou coletadas no mundo real por meio de pintura interna ou externa processual.
Modelos de IA generativa de texto para texto, como Evian 2 405B e Nemotron-4 340B , podem ser usados para gerar dados sintéticos para criar LLMs poderosos para área da saúde, finanças, cibersegurança, varejo e telecomunicações.
O Evian 2 405B e o Nemotron-4 340B fornecem uma licença aberta, dando aos desenvolvedores os direitos de possuir e usar os dados gerados em seus aplicativos acadêmicos e comerciais.