A engenharia de dados é a base da ciência de dados e estabelece os fundamentos para análise e modelagem. Para que as empresas possam extrair conhecimentos e insights de dados estruturados e não estruturados, é fundamental que tenham acesso rápido a conjuntos de dados precisos e completos. Trabalhar com enormes volumes de dados de fontes diferentes requer infraestrutura complexa e conhecimento especializado. Pequenas ineficiências podem custar caro, tanto em termos de tempo quanto de gastos, se ampliadas para milhões ou trilhões de pontos de dados.
Neste workshop, veremos como as GPUs podem melhorar os pipelines de dados e como o uso de ferramentas e técnicas avançadas de engenharia de dados pode acelerar o desempenho significativamente. Pipelines mais rápidos produzem dashboards e modelos de machine learning (ML) melhores, que podem ser utilizados pelos usuários para acessar as informações mais atuais.
Objetivos de Aprendizagem
Neste workshop, você verá o seguinte:
- Como funciona o fluxo de dados dentro de um computador. Como criar o equilíbrio correto entre CPU, DRAM, memória de disco e GPUs.
- Como diferentes formatos de arquivo podem ser lidos e manipulados pelo hardware.
- Como dimensionar um pipeline de ETL com várias GPUs usando o NVTabular.
- Como criar um dashboard interativo no Plotly que permita aos usuários filtrar milhões de pontos de dados em menos de 1 segundo.
Faça download do datasheet do workshop (PDF de 318KB)