NVIDIA、世界をリードする分析プラットフォームである Apache Spark を高速化

オープンソース コミュニティが、NVIDIA GPU をネイティブサポートして Spark 3.0 を高速化、数百テラバイトのデータの ETL および SQL を超高速処理、Adobe が Databricks で Spark 3.0 を使い、モデル トレーニングで 7 倍のスピードアップを達成。

2020 年 5 月 14 日、カリフォルニア州サンタクララ - GTC 2020 - NVIDIA は本日、オープンソース コミュニティと連携し、全世界の 50 万人以上のデータ サイエンティストが使用している、ビッグデータ処理のための分析エンジンである Apache Spark 3.0 に、エンドツーエンドの GPU アクセラレーションを提供することを発表しました。

晩春にリリースが予定されている Spark 3.0 にて、データ サイエンティストや機械学習エンジニアは、SQL データベース操作を通じて広く行われている、ETL (抽出、変換、ロード) データ処理ワークロードに革新的な GPU アクセラレーションを初めて適用できるようになります。

また、ワークロードを別々のインフラストラクチャ上で別々のプロセスとして実行するのではなく、AI モデルのトレーニングを同じ Spark クラスタ上で処理できるようになります。これにより、データ サイエンス パイプライン全体で高性能なデータ分析が可能になり、オンプレミスやクラウドで実行されている Spark アプリケーションに使われている既存のコードを変更することなく、データ レイクからモデル学習までの数十から数千テラバイトのデータを高速処理できるようになります。

NVIDIA のエンタープライズ コンピューティング ヘッドのマヌバー ダス (Manuvir Das) は、次のように述べています。「データ アナリティクスは、現在のエンタープライズや研究者が直面している、ハイパフォーマンス コンピューティングにおける最大の課題です。ETL から学習、推論に至るまで、Spark 3.0 のパイプライン全体のネイティブな GPU アクセラレーションによって、ビッグデータの可能性と AI のパワーを最終的に結びつけるのに必要な性能とスケールを得られるようになります」

NVIDIA との戦略的 AI パートナーシップを結んでいる Adobe は、Databricks 上で動作する Spark 3.0 のプレビュー リリースを実際に使用した、最初の企業の 1 つにです。同社は、Adobe Experience Cloud での製品開発やデジタル ビジネスを強力にする機能のサポートのために、GPU で高速化されたデータ分析を使用し、初期テストで 7 倍の性能向上と 90% の費用削減を達成しました。

Spark 3.0 の性能向上により、科学者はより大規模なデータセットでモデルの学習を行えるだけでなく、より頻繁にモデルの再学習もできるようになるため、モデルの精度を引き上げることができます。これにより、毎日テラバイト単位の新しいデータを処理できるようになり、オンライン レコメンデーション システムをサポートしたり、新しい研究データを分析したりするデータ サイエンティストにとって、きわめて重要な意味を持ちます。さらに、処理が高速化されることで、結果を出すために必要とされるハードウェア リソースが減り、大幅な費用削減が可能になります。

Adobe の機械学習担当シニアディレクターのウィリアム ヤン (William Yan) 氏は、次のように述べています。「NVIDIA のテクノロジで高速化された Spark 3.0 により、CPU で Spark を実行していたときと比べて性能が大幅に向上しています。このような革新的な GPU による処理能力の向上により、すべての Adobe Experience Cloud アプリケーションで AI を活用した機能を強化するための、まったく新しい可能性が生まれています」

Databricks と NVIDIA がもたらす、Spark のスピード向上
Apache Spark は元々 Databricks の創業者が生み出したもので、このクラウドベースの統合データ分析プラットフォームは、毎日 100 万台以上の仮想マシンで使用されています。NVIDIA と Databricks は、Databricks 向けのソフトウェア スイートであるRAPIDS™ で Spark を最適化するための取り組みを通じて、ヘルスケアや金融、小売りおよびその他の多くの業界で Databricks 上で実行されている、データ サイエンスと機械学習のワークロードに GPU アクセラレーションを提供しています。

Apache Spark のオリジナル クリエイターであり、Databricks のチーフテクノロジストであるマテイ ザハリア (Matei Zaharia) 氏は、次のように述べています。「NVIDIA との継続的な取り組みにより、Apache Spark 3.0 および Databricks の RAPIDS による最適化によって性能が向上し、Adobe のような両社共通のお客様に利益をもたらしています。このような成果が、より高速なデータ パイプライン、モデルの学習やスコアリングにつながり、データ エンジニアやデータ サイエンティストのコミュニティの多くのブレイクスルーと洞察に直結します。」

NVIDIA GPU による Spark での ETL とデータ転送の高速化
NVIDIA は、新しいオープンソースのRAPIDS Accelerator for Apache Spark を通じて、データ サイエンティストがエンドツーエンドからパイプラインの性能を向上させるのを支援しています。このアクセラレーターは、これまで CPU で実行されていた機能を遮断し、その代わりに GPU を活用して以下のような利益をもたらします。

  • コードを変更することなく Spark SQL と DataFrame の処理性能を大幅に向上させ、Spark での ETL パイプラインを高速化します。
  • 同じインフラストラクチャ上でのデータ準備とモデルの学習を高速化します。機械学習とディープラーニング用の個別のクラスタは不要になります。
  • Spark 分散クラスタ内のノード間のデータ転送性能を高速化します。これらのライブラリでは、UCF Consortium のオープンソースの Unified Communication X (UCX) フレームワークが活用されており、GPU メモリ間でデータを直接転送することで、レイテンシを最小化します。

Spark 3.0 のプレビュー リリースは、Apache Software Foundation を通じて、現在入手可能となっており、一般提供は数か月後の予定です。詳しい情報は、www.nvidia.com/sparkをご覧ください。

NVIDIA について
1999 年における NVIDIA (NASDAQ 表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューター グラフィックスを再定義し、並列コンピューティングに革命的変化を起こしました。最近では、GPU ディープラーニングが最新の AI (次世代コンピューティング) に火をつけ、世界を知覚し理解することができるコンピューター、ロボット、自律走行車の脳として GPU は機能しています。詳細は、こちらのリンクから: www.nvidia.com/ja-jp/