Geração de Dados Sintéticos

Acelere seus workflows de IA.

Cargas de Trabalho

Visão Computacional / Análise de Vídeo

Indústrias

Manufatura
Hardware/Semicondutor
Automotivo/Transporte
Cidades/espaços inteligentes
Robótica

Meta de Negócios

Inovação

Produtos

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

O Que São Dados Sintéticos?

O treinamento de qualquer modelo de IA requer conjuntos de dados diversificados, cuidadosamente rotulados e de alta qualidade para alcançar a precisão e o desempenho desejados. Em muitos casos, os dados são limitados, restritos ou indisponíveis. Coletar e rotular esses dados do mundo real é demorado e pode ser proibitivamente caro, retardando o desenvolvimento de modelos físicos de IA e o tempo para encontrar uma solução.

Os dados sintéticos podem ajudar a enfrentar esse desafio, gerados a partir de uma simulação de computador, modelos de IA generativa ou uma combinação dos dois. Pode consistir em texto, imagens 2D ou 3D no espectro visual e não visual, que podem ser usadas em conjunto com dados do mundo real para treinar modelos físicos de IA multimodais. Isso pode economizar uma quantidade significativa de tempo de treinamento e reduzir bastante os custos.

Synthetic data

Por Que Usar Dados Sintéticos?

Impulsionar o Treinamento de Modelo de IA

Supere a lacuna de dados e acelere o desenvolvimento de modelos de IA reduzindo o custo geral de aquisição e rotulagem de dados necessários para treinar modelos de IA de texto, visuais e físicos.

Privacidade e Segurança

Resolva problemas de privacidade e reduza o viés gerando diversos conjuntos de dados sintéticos para representar o mundo real.

Exatidão

Crie modelos de IA generalizados e altamente precisos treinando com diversos dados que incluem casos raros, mas cruciais, que de outra forma seriam impossíveis de coletar.

Escalonável

Gere dados processualmente com pipelines automatizados que se adaptam ao seu caso de uso em manufatura, automotivo, robótica e muito mais.

Gerando Dados Sintéticos

Os dados sintéticos podem ser gerados de várias maneiras, dependendo do caso de uso.

Usando Métodos de Simulação

Se você estiver treinando um modelo de IA de visão computacional para um robô de armazém, precisará criar uma cena virtual fisicamente precisa com objetos como porta-paletes e racks de armazenamento. Ou você pode treinar um modelo de IA para inspeção visual em uma linha de montagem, onde precisará criar uma cena virtual com objetos como uma esteira transportadora e o produto que está sendo produzido.

Um dos principais desafios no desenvolvimento de pipelines de dados sintéticos é fechar a lacuna entre o simulador e o real. A randomização de domínio preenche essa lacuna, permitindo que você controle vários aspectos da cena, como a posição dos objetos, a textura e a iluminação.

Os microsserviços NVIDIA Omniverse™ Cloud Sensor RTX oferecem uma maneira perfeita de simular sensores e gerar dados sintéticos anotados. Como alternativa, você pode começar a usar o SDK do Omniverse Replicator para desenvolver pipelines de ODS personalizados.

Usando IA Generativa

Os modelos generativos podem ser usados para inicializar e aumentar os processos de geração de dados sintéticos. Os modelos de texto para 3D permitem a criação de ativos 3D para preencher uma cena de simulação 3D. Os modelos de IA generativa de texto para imagem também podem ser usados para modificar e aumentar as imagens existentes, geradas a partir de simulações ou coletadas no mundo real por meio de pintura interna ou externa processual.

Modelos de IA generativa de texto para texto, como Evian 2 405B e  Nemotron-4 340B , podem ser usados para gerar dados sintéticos para criar LLMs poderosos para área da saúde, finanças, cibersegurança, varejo e telecomunicações.

O Evian 2 405B e o Nemotron-4 340B fornecem uma licença aberta, dando aos desenvolvedores os direitos de possuir e usar os dados gerados em seus aplicativos acadêmicos e comerciais.

Simulação de Robótica

No campo da robótica, os dados sintéticos podem ser usados para treinar modelos de IA implantados para percepção, manipulação ou preensão de robôs, ou em robôs usados para inspeção visual.

Links Rápidos

Imagem cortesia de Techman Robot

Inspeção Industrial

Detectar defeitos em peças fabricadas é extremamente difícil porque as anomalias costumam ser sutis ou raras e podem variar muito. Dados sintéticos baseados em defeitos reais, como arranhões, lascas ou amassados, podem ser criados para treinar modelos de IA para detectar defeitos no início do processo de manufatura.

Imagem cortesia da Delta Electronics

Links Rápidos

Imagem cortesia de Edge Impulse

Veículos Autônomos

A implantação de um veículo autônomo que pode navegar com segurança em seus arredores requer grandes quantidades de dados de treinamento, o que é extremamente caro e perigoso de adquirir na vida real. Os dados sintéticos podem ser usados para desenvolver e testar soluções de veículos autônomos em um ambiente de simulação, reduzindo os tempos de teste e treinamento e diminuindo os custos.

Finanças

Os dados sintéticos permitem modelagem de risco sofisticada e detecção de fraudes, protegendo informações financeiras confidenciais. Esse método é crucial para o desenvolvimento de modelos avançados de IA para avaliação de risco, negociação algorítmica e suporte ao cliente.

Geração Aumentada de Recuperação (RAG)

Empresas de todos os setores estão adotando a IA generativa para melhorar as experiências do cliente e aumentar a eficiência operacional. Para garantir que os modelos forneçam respostas atualizadas e fundamentadas, o pipeline RAG é implementado no workflow de IA. A geração de dados sintéticos pode ajudar as empresas a avaliar a qualidade de sua implementação de RAG.

Ecossistema de Parceiros de Dados Sintéticos

Veja como nosso ecossistema está desenvolvendo suas próprias aplicações e serviços de dados sintéticos com base nas tecnologias NVIDIA.

Empresas de Dados Sintéticos

Parceiros de Prestação de Serviços

Comece Agora

Crie seu próprio pipeline de geração de dados sintéticos para simulações de robótica, inspeção industrial e veículos autônomos usando APIs ou SDKs do Omniverse Cloud.

Resources

Treinamento de Dados Sintéticos

Faça este curso individualizado para aprender como gerar dados sintéticos para treinar modelos de visão computacional.

Documentação de Dados Sintéticos

Consulte a documentação do Omniverse Replicator para começar a gerar dados sintéticos.

Treinamento LLM de Geração de Dados Sintéticos

Saiba mais sobre os modelos abertos Llama 3.1 405B e Nemotron-4 340B que os desenvolvedores podem usar para gerar dados sintéticos para treinar grandes modelos de linguagem (LLMs) para aplicações comerciais.

Lista de Reprodução de Geração de Dados Sintéticos

Assista às sessões do NVIDIA GTC sobre Geração de Dados Sintéticos para saber mais.