データ準備タスクのパフォーマンスを加速して、パイプラインの次のステージに迅速に移行します。これにより、データ サイエンティストやエンジニアは最も重要な作業に集中できるようになり、モデルの学習が高速化されます。
GPU 対応 Apache Spark™
データ分析、機械学習、ディープラーニング パイプラインに対応
GPU を活用した Apache Spark™ 3 データ サイエンス パイプラインは—コードを変更することなく—インフラ費用を大幅に抑えて、データ処理とモデル トレーニングを高速化します。
データ準備タスクのパフォーマンスを加速して、パイプラインの次のステージに迅速に移行します。これにより、データ サイエンティストやエンジニアは最も重要な作業に集中できるようになり、モデルの学習が高速化されます。
より少ないリソースでより多くのことを実現: NVIDIA® GPU 上の Spark は、CPU と比較してより少ないハードウェアでジョブをより速く完了し、組織の時間を節約するだけでなく、オンプレミスの資本コストやクラウドでの運用コストも節約することができます。
RAPIDS Accelerator を含むエンドツーエンドの AI ソフトウェア プラットフォームである NVIDIA AI Enterprise を使用すれば、データの準備と処理から、大規模なモデルの学習、シミュレーション、推論に至るまでエンドツーエンドの AI パイプラインを大規模に高速化し、本番稼働までの時間を短縮することができます。
多くのデータ処理タスクの性質が、徹底した並列処理であることを考えると、AI の DL ワークロードを GPU で高速化する方法と同様に、Spark のデータ処理クエリに GPU のアーキテクチャが活用されるのは当然です。GPU アクセラレーションは開発者にとって透過的であり、コードを変更しなくても利点が得られます。Spark 3 では次の 3 点が大きく進化しており、透過的な GPU アクセラレーションの実現を可能にしています。
NVIDIA CUDA®は、NVIDIA GPU アーキテクチャにおける演算処理を加速する革新的な並列計算処理アーキテクチャです。NVIDIA で開発された RAPIDS は、CUDA 上層で実装されるオープンソース ライブラリ スイートであり、データ サイエンス パイプラインの GPU 高速化を可能にします。
NVIDIA は、Spark SQL と DataFrame 演算のパフォーマンスを劇的に改善することで ETL パイプラインをインターセプトして高速化する Spark 3 の RAPIDS アクセラレータを開発しました。
Spark 3 では、SQL と DataFrame の演算子を高速化するために RAPIDS アクセラレータをプラグインするもので、Catalyst クエリ最適化のカラム型処理サポートを提供します。クエリ計画が実行されると、これらの演算子を Spark クラスター内の GPU で実行できます。
NVIDIA はまた、新たな Spark シャッフル実装を開発し、Spark プロセス間のデータ転送を最適化します。このシャッフル実装は、UCX、RDMA、NCCL など、GPU 対応通信ライブラリの上に構築されます。
Spark 3 は GPU を、CPU やシステム メモリと共に、第一級のリソースとして認識します。それにより Spark 3 は、ジョブの高速化と遂行に GPU リソースが必要な場合、GPU リソースが含まれるサーバーを認識し GPU 対応のワークロードを投入します。
NVIDIA のエンジニアはこの主要な Spark の機能強化に貢献し、Spark スタンドアロン、YARN、Kubernetes クラスターの GPU リソースで Spark アプリケーションの起動を可能にしました。
RAPIDS Accelerator for Apache Spark は、NVIDIA AI Enterprise で利用することができます。 Amazon EMR、Google Cloud Dataproc、Databricks など、オンプレミスからクラウドまで、認定されたプラットフォーム上でエンタープライズ グレードのサポート、セキュリティ、安定性をフル活用して、Spark デプロイメントに最適化されたパフォーマンスを実現します。保証された応答時間、優先的なセキュリティ通知、NVIDIA のデータ サイエンス エキスパートへのアクセスをご利用ください。
AI の力でビッグ データから価値を引き出す方法をお探しですか?NVIDIA の新しい eBook、「Accelerating Apache Spark™ 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI」 (Apache Spark™ 3.x の高速化 – NVIDIA GPU を活用して次世代の分析と AI にパワーをもたらす) をダウンロードしてください。Apache Spark™ の次の進化をご覧いただけます。