Les tâches courantes de traitement de données se décomposent en plusieurs étapes sous la forme de pipelines de données, que Hadoop ne peut pas toujours gérer de manière optimale. Apache Spark a résolu ce problème en regroupant toutes les données dans la mémoire système, ce qui a favorisé l'apparition de pipelines de données plus polyvalents et complexes, mais a également engendré de nouveaux problèmes de ralentissement des transferts. Jusqu’à récemment, l’analyse de quelques centaines de gigaoctets (Go) de données pouvait prendre plusieurs heures, voire des jours, dans des clusters Spark comptant pourtant des centaines de nœuds CPU. Pour exploiter tout le potentiel de la science des données, les GPU doivent être au centre de la conception des Data Centers en concentrant les cinq éléments suivants : calcul informatique, mise en réseau, stockage, déploiement et logiciels. De manière générale, les workflows de science des données de bout en bout s'exécutent désormais 10 fois plus vite sur GPU que sur CPU.
Lire l’article ›