Las tareas comunes de procesamiento de datos tienen muchos pasos (procesos de datos), que Hadoop no puede manejar de manera eficiente. Apache Spark resolvió este problema manteniendo todos los datos en la memoria del sistema, lo que permitió procesos de datos más flexibles y complejos, pero introdujo nuevos cuellos de botella. Analizar incluso unos pocos cientos de gigabytes (GB) de datos podría llevar horas, incluso días, en los clústeres Spark con cientos de nodos de CPU. Para aprovechar el verdadero potencial de la ciencia de datos, las GPU deben estar en el centro del diseño del data center, que consta de estos cinco elementos: computación, redes, almacenamiento, implementación y software. En términos generales, los workflows integrales de ciencia de datos en las GPU son 10 veces más rápidos que en las CPU.
Leer el Blog ›