初の Tensor コア GPU
がん治療のパーソナライズから、仮想個人アシスタントとの自然な会話の支援、次に発生する巨大ハリケーンの予測まで、データの海に隠れた洞察を発見することは、産業全体を変えることができます。
NVIDIA® V100 は、AI、HPC、およびグラフィックスを高速化するために構築された最先端のデータ センター GPU です。これは NVIDIA Volta アーキテクチャで構築され、16 GB と 32 GB の構成で使用可能であり、1 つの GPU で 100 CPU 分の性能を提供します。データ サイエンティスト、研究者、エンジニアは、メモリ使用量の最適化ではなく、次の AI ブレイクスルーを生み出すことに時間を費やせるようになります。
ResNet-50トレーニング、データセット: ImageNet2012、BS = 256 | NVIDIA V100 の比較構成: NVIDIA DGX-2™ サーバー、1x V100 SXM3-32GB、MXNet 1.5.1、コンテナー = 19.11-py3、混合精度、スループット: 1,525 画像/秒 | Intel の比較構成: Supermicro SYS-1029GQ-TRT、1 ソケット Intel Gold 6240@2GHz/3.9Hz Turbo、Tensorflow 0.18、FP32 (この精度のみ利用可能)、スループット: 48 画像/秒
音声認識から、仮想パーソナル アシスタントのトレーニング、ロボットカーに運転を教えることまで、データ サイエンティストは AI を使用してますます複雑な課題に取り組んでいます。この種の問題の解決には、複雑さが指数関数的に増加しつつあるディープラーニング モデルのトレーニングを実用的な時間内に行う必要があります。
640 個の Tensor コアを搭載した V100 は、ディープラーニング性能で 100 テラフロップス (TOPS) の壁を突破した世界初の GPU です。次世代の NVIDIA NVLink™ は、毎秒最高 300 GB で複数の V100 GPU に接続し、世界で最もパワフルなコンピューティング サーバーを構築します。従来のシステムではコンピューティング リソースを数週間消費していた AI モデルが、今では数日でトレーニングできるようになりました。このトレーニング時間の劇的な削減により、まったく新しい世界の問題が AI によって解決できるようになりました。
BERT ベースのファインチューニング推論、データセット: SQuADv1.1、BS = 1、シーケンス長 = 128 | NVIDIA V100 の比較構成:Supermicro SYS-4029GP-TRT、1x V100-PCIE-16GB、プレリリース コンテナー、混合精度、NVIDIA TensorRT™ 6.0、スループット: 557 文/秒 | Intel の比較: 1 ソケット Intel Gold 6240@2.6GHz/3.9Hz Turbo、FP32 (この精度のみ使用可能)、OpenVINO MKL-DNN v0.18、スループット: 23.5 文/秒
最も関連性の高い情報、サービス、製品を提供できるようになるため、ハイパースケール企業は AI の利用を始めています。ただし、ユーザーの要求に応え続けることは、難しい課題です。たとえば、世界最大のハイパースケール企業が、すべてのユーザーがその企業の音声認識サービスを 1 日 3 分使用するだけで、データ センターの容量を倍にする必要があると最近見積もりました。
V100 は、既存のハイパースケール サーバー ラックのパフォーマンスを最大化するように設計されています。AI をその中心に据えた V100 GPU は CPU サーバーの 47 倍の推論性能を実現します。スループットと効率性のこの大きな飛躍は、AI サービスのスケールアウトを現実的なものにします。
アプリケーション (データセット): MILC (APEX Medium) および Chroma (szscl21_24_128) | CPU サーバー: デュアルソケット Intel Xeon Platinum 8280 (Cascade Lake)
HPC は現代科学の基礎となる柱です。天気予報から創薬、新しいエネルギー源の発見まで、研究者は大型の計算システムを使用して世界をシミュレーションし、予測しています。AI は従来の HPC を拡張し、研究者が大量のデータを分析できるようにします。シミュレーションだけでは現実を完全に予測できないような洞察が短期間で得られます。
V100 は、AI と HPC を統合するために設計されています。科学的シミュレーションのための計算科学と、データから洞察を見つけるためのデータ科学の両方に優れた HPC システムのプラットフォームを提供します。統一されたアーキテクチャで NVIDIA CUDA® コアと Tensor コアを組み合わせることにより、V100 GPU を装備したサーバー 1 台で数百台の汎用 CPU のみのサーバーに匹敵する能力が実現し、従来の HPC および AI ワークロードに活用できます。現在、すべての研究者とエンジニアが AI スーパーコンピューターを利用して、最も困難な作業に取り組むことができます。
ディープラーニングのための究極のパフォーマンス
あらゆるワークロードに対応する高い多様性
倍精度 7.8 TeraFLOPS
単精度 15.7 TeraFLOPS
ディープラーニング 125 TeraFLOPS
倍精度 7 TeraFLOPS
単精度 14 TeraFLOPS
ディープラーニング 112 TeraFLOPS
倍精度 8.2 TeraFLOPS
単精度 16.4 TeraFLOPS
ディープラーニング 130 TeraFLOPS
NVLink 300 GB/秒
PCIe 32 GB/秒
容量 32/16 GB HBM2
帯域幅 900 GB/秒
容量 32 GB HBM2
帯域幅 1134 GB/秒
300 ワット
250 ワット