NVIDIA Ampere 아키텍처는 완전한 NVIDIA 엔터프라이즈 데이터센터 솔루션 의 일부로, 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NVIDIA NGC™ 카탈로그.의 최적화된 AI 모델과 애플리케이션에 걸쳐 구성 요소를 통합합니다. 연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 빠르게 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.
NVIDIA A30 Tensor 코어 GPU를 통해 모든 엔터프라이즈 워크로드에 가속화된 성능을 제공하세요. NVIDIA Ampere 아키텍처 Tensor 코어 및 Multi-Instance GPU (MIG) 를 통해, 대규모 AI 추론 및 고성능 컴퓨팅(HPC) 애플리케이션을 포함하여 다양한 워크로드 전반에서 안전하게 속도 향상을 제공합니다. 고속 메모리 대역폭과 낮은 전력 소모량을 주류 서버에 최적인 PCIe 폼 팩터에 결합함으로써, A30은 탄력 있는 데이터센터를 지원하며 엔터프라이즈에게 최대한의 가치를 제공합니다.
NVIDIA Ampere 아키텍처는 완전한 NVIDIA 엔터프라이즈 데이터센터 솔루션 의 일부로, 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NVIDIA NGC™ 카탈로그.의 최적화된 AI 모델과 애플리케이션에 걸쳐 구성 요소를 통합합니다. 연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 빠르게 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.
BERT Large Pre-Training (Normalized)
ERT-대규모 사전 트레이닝(에포크 9/10개) 1단계 및 (에포크 1/10개) 2단계, 1단계의 시퀀스 길이 = 128, 2단계 = 512, 데이터세트 = real, NGC™ 컨테이너 = 21.03,
8x GPU: T4(FP32, BS=8, 2) | V100 PCIE 16GB(FP32, BS=8, 2) | A30(TF32, BS=8, 2) | A100 PCIE 40GB(TF32, BS=54, 8) | 표시된 배치 크기는 각각 1단계 및 2단계에 해당
대화형 AI 등 다음 단계의 도전 과제에 대해 AI 모델을 트레이닝하는 데는 엄청난 컴퓨팅 성능과 확장성이 필요합니다.
Tensor Float(TF32)를 갖춘 NVIDIA A30 Tensor 코어 는 코드를 변경할 필요 없이 NVIDIA Volta보다 최대 10배 높은 성능과 더불어 자동 혼합 정밀도 및 FP16으로 추가적인 2배의 성능 향상을 보여주며 합쳐 20배 높은 처리량 향상을 제공합니다. NVIDIA® NVLink, PCIe Gen4, NVIDIA 네트워킹 및 NVIDIA Magnum IO™ SDK와 결합할 때 수천 개의 GPU로 확장 가능합니다.
Tensor 코어와 MIG를 통해 A30을 하루 내내 워크로드에 동적으로 사용할 수 있습니다. 수요가 피크일 때 프로덕션 추론에 사용할 수 있으며, GPU의 일부는 목적을 변경하여 피크 시간이 아닐 때 같은 모델을 재트레이닝할 수 있습니다.
NVIDIA는 AI 트레이닝에 대한 업계 전반의 벤치마크인 MLPerf, 에서 여러 성능 기록을 세웠습니다.
A30은 획기적인 기능을 도입하여 추론 워크로드를 최적화합니다. FP64에서 TF32 및 INT4에 이르는 전체 범위의 정밀도를 가속화합니다. GPU당 최대 4개의 MIG를 지원하는, A30은 여러 네트워크가 보장된 서비스 품질(QoS)을 갖추고 안전한 하드웨어 파티션에서 동시에 운영되도록 지원합니다. 또한 구조적 희소성 지원은 A30의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.
시장을 주도하는 NVIDIA의 AI 성능은 MLPerf Inference 에서 드러났습니다. 대규모 AI를 쉽게 배포하는 NVIDIA Triton™ Inference 추론 서버와 결합했을 때, A30은 모든 엔터프라이즈에 이 혁신적인 성능을 제공합니다.
BERT 대규모 추론(일반화됨)
<10ms 지연 시간에 대한 처리량
NVIDIA® TensorRT®, 정밀도=INT8, 시퀀스 길이 = 384, NGC 컨테이너 20.12, 지연 시간 <10ms, 데이터세트 = synthetic 1x GPU: A100 PCIE 40GB(BS=8) | A30(BS=4) | V100 SXM2 16GB | T4(BS=1)
RN50 v1.5 추론(Normalized)
<7ms 미만 레이턴시를 위한 처리량
TensorRT, NGC Container 20.12, Latency <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)
LAMMPS(일반화됨)
데이터세트: ReaxFF/C, FP64 | 4x GPU: T4, V100 PCIE 16GB, A30
차세대 발견을 위해 과학자들은 우리 주위의 세계를 더 잘 이해할 수 있도록 시뮬레이션을 보고 있습니다.
NVIDIA A30에는 GPU가 소개된 후 HPC 성능의 가장 큰 도약을 제공한 FP64 NVIDIA Ampere 아키텍처 Tensor 코어가 있습니다. 24기가바이트(GB)의 GPU 메모리 및 초당 933기가바이트(GB/s)의 대역폭과 결합되어 연구원들이 이중 정밀 계산을 빠르게 해결하도록 해줍니다. HPC 애플리케이션도 TF32를 활용하여 단정밀도의 고밀도 매트릭스 곱셈 연산에서 높은 처리량을 달성할 수 있습니다.
FP64 Tensor 코어와 MIG의 결합은 연구 기관에서 GPU를 안전하게 파티션하여 여러 연구원들이 보장된 QoS 및 최대 GPU 활용률로 컴퓨팅 리소스에 액세스하도록 지원합니다. AI를 배포하는 엔터프라이즈는 피크 수요 기간 중에 A30의 추론 기능을 사용한 다음, 피크 기간이 아닐 때는 HPC 및 AI 트레이닝 워크로드에 대해 같은 컴퓨팅 서버의 목적을 변경할 수 있습니다.
MIG를 사용하는 A30은 GPU 가속화 인프라의 활용률을 극대화합니다. A30 GPU는 MIG를 통해 4개나 되는 별개의 인스턴스로 안전하게 분할될 수 있어 여러 사용자가 GPU 가속화에 액세스할 수 있습니다.
MIG는 Kubernetes, 컨테이너 및 하이퍼바이저 기반 서버 가상화와 연동됩니다. MIG는 인프라 관리자가 모든 작업에 보장된 QoS로 알맞은 크기의 GPU를 제공하도록 지원하여 모든 사용자가 가속 컴퓨팅 리소스를 사용할 수 있게 합니다.
* 희소성 포함
** 최대 2개 GPU를 위한 NVLink Bridge
NVIDIA Ampere 아키텍처의 최첨단 기술을 살펴보세요.