Acelerando o Apache Spark™ 3

Utilizando as GPUs da NVIDIA para Impulsionar a Próxima Era de Analytics e da AI

GPU-accelerated libraries, DataFrame and APIs:

Layered on top of NVIDIA CUDA, RAPIDS is a suite of open-source software libraries and APIs that provide GPU parallelism and high-bandwidth memory speed through DataFrame and graph operations, achieving speedup factors of 50x or more on typical end-to-end data science workflows. For Spark 3.0, new RAPIDS APIs are used by Spark SQL and DataFrames for GPU accelerated memory efficient columnar data processing and query plans.
With Spark 3.0 the Catalyst query optimizer has been modified to identify operators within a query plan that can be accelerated with the RAPIDS API, and to schedule those operators on GPUs within the Spark cluster, when executing the query plan.
A new Spark shuffle implementation, built upon GPU accelerated communication libraries including Remote direct memory access (RDMA), dramatically reduces the data transfer among Spark processes. RDMA allows GPUs to communicate directly with each other, across nodes, at up to 100Gb/s, operating as if on one massive server.

GPU-aware Scheduling in Spark

Spark 3.0 adds integration with the cluster managers (YARN, Kubernetes, and Standalone) to request GPUs, and plugin points to allow it to be extended to run operations on the GPU. This makes GPUs easier to request and use for Spark application developers, allows for closer integration with deep learning and AI frameworks such as Horovod and TensorFlow on Spark, and allows for better utilization of GPUs.

O Apache Spark™ é um poderoso mecanismo de execução para processamento de dados paralelos em larga escala em um cluster de máquinas, o que permite o rápido desenvolvimento de aplicações e alto desempenho. Com o Spark 3.0, grandes melhorias tornam possível usar a arquitetura massivamente paralela das GPUs para acelerar ainda mais o processamento de dados do Spark.

Neste e-book, aprenda como as inovações do Spark 3 tornam possível usar a arquitetura massivamente paralela de GPUs para acelerar ainda mais o processamento de dados do Spark.

Preencha o formulário abaixo para baixar o e-book e aprender sobre o seguinte:

A evolução do processamento de dados, do Hadoop às GPUs e à biblioteca NVIDIA RAPIDS^™
Spark, o que é, o que faz e por que é importante
Aceleração GPU no Spark
DataFrames e Spark SQL
Um exemplo de regressão do Spark com um classificador de floresta aleatório
Um exemplo de workflows de machine learning de ponta a ponta acelerado por GPU com XGBoost

FAÇA DOWNLOAD AGORA

Section

Section

Nome

Sobrenome

E-mail Corporativo

Business Phone Number

Organização / Nome da Universidade

Quero receber as últimas novidades, anúncios e mais da NVIDIA sobre:

Soluções de Negócios Empresariais

Tecnologias e Ferramentas para Desenvolvedores

(Opcional). Você pode cancelar a inscrição a qualquer momento.

Política de Privacidade da NVIDIA