NVIDIA Volta™ アーキテクチャで最初に導入された NVIDIA Tensor コア テクノロジは、AI に劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速します。NVIDIA Ampere アーキテクチャはこのイノベーションを基盤としており、新しい精度である Tensor Float 32 (TF32) と 64 ビット浮動小数点 (FP64) を導入することで、AI の導入を加速して簡素化し、Tensor コアのパワーを HPC にもたらします。
TF32 は FP32 と同じように動作しますが、コードを変更しなくても、AI を最大 20 倍スピードアップします。 NVIDIA Automatic Mixed Precisionを使用すると、研究者はわずか数行のコードを追加するだけで、自動混合精度と FP16 でさらに 2 倍のパフォーマンスを得られます。また、bfloat16、INT8、INT4 に対応しているので、NVIDIA Ampere アーキテクチャの Tensor コア GPU の Tensor コアは、AI のトレーニングと推論の両方に対する、非常に汎用性の高いアクセラレータです。また、Tensor コアのパワーを HPC にもたらす A100 および A30 GPU GPU では、完全な IEEE 準拠の FP64 精度での行列演算を実行できます。