La ingeniería de datos es la base de la ciencia de datos y realiza el trabajo preliminar para el análisis y el modelado. Para que las organizaciones puedan analizar datos con y sin estructura, es indispensable que cuenten con acceso rápido y total a los conjuntos de datos. Trabajar con grandes cantidades de datos provenientes de distintas fuentes requiere experiencia e infraestructuras complejas. Las más ínfimas deficiencias pueden ser muy costosas (tanto en términos de tiempo como de dinero) al escalarlas de millones a billones de puntos de datos.
En este workshop, exploraremos cómo las GPU pueden mejorar los pipelines de datos y cómo usar herramientas y técnicas de ingeniería de datos avanzadas pueden acelerar considerablemente el rendimiento. Al usar pipelines más rápidos, se pueden producir modelos de machine learning (ML) y paneles más actualizados, para que los usuarios tengan la información más reciente a mano.
Objetivos de Aprendizaje
Al participar en este workshop, aprenderás lo siguiente:
- Cómo se desplazan los datos en una computadora. Cómo conseguir el balance ideal entre la CPU, la DRAM, la memoria en el disco y las GPU.
- Cómo el hardware puede leer y modificar los distintos formatos de archivo.
- Cómo escalar un pipeline de ETL con varias GPU usando NVTabular.
- Cómo diseñar un panel interactivo de Plotly con el que los usuarios puedan filtrar millones de puntos de datos en menos de un segundo.
Descargar la hoja de datos del workshop (PDF 318 KB)