ハイパフォーマンス コンピューティング、データ サイエンス、生命情報科学、ディープラーニングにおいて大量の計算処理能力を必要とする CUDA® C++ アプリケーションは、複数の GPU を利用することで高速化できます。これにより、スループットが向上し、総実行時間が短縮されます。計算とメモリ転送の同時オーバーラップと組み合わせることで、メモリ転送のコストを増やすことなく、複数の GPU をまたいで計算をスケールできます。クラウド内でも、NVIDIA DGX™ システム上でも、マルチ GPU サーバーを使用している組織の場合、これらの技術によって GPU 対応アプリケーションから、最高のパフォーマンスを達成することができます。また、複数のノードにまたがるアプリケーションをスケールする前に、これらのシングルノード、マルチGPU 技術を実装することが重要です。
このワークショップでは、シングル ノードで利用できるすべての GPU を効率的かつ正しく活用する CUDA C++ アプリケーションの記述方法を取り上げます。アプリケーションのパフォーマンスが劇的に上がり、複数の GPU を持つシステムから最大限の費用対効果を得ることができます。
学習目標
このワークショップでは、次のことを行います。
- 同時 CUDA ストリームを使用し、メモリ転送と GPU 計算をオーバーラップさせる
- シングル ノードで利用できるすべての GPU を活用し、利用できるすべての GPU をまたいでワークロードをスケールする
- コピー/計算オーバーラップの使用を複数の GPU と組み合わせる
- NVIDIA Nsight™ Systems Visual Profiler タイムラインを利用し、改善機会と、ワークショップで取り上げる手法の影響を観察する
ワークショップ データシートをダウンロードする (PDF 243 KB)