첫 번째 Tensor 코어 GPU
데이터의 바다에 숨은, 산업 전반에 혁신을 몰고 올 인사이트를 찾으십시오. 맞춤화된 암 치료 요법부터 자연스럽게 대화하는 가상 개인 비서의 도움에, 거대한 허리케인까지 예측합니다.
NVIDIA® V100은 AI, HPC 및 그래픽을 가속화하는 역대 데이터센터 GPU 가운데 가장 앞서 있습니다. NVIDIA Volta 아키텍처를 탑재하였고 16, 32GB 구성으로 제공되며, 단일 GPU로 100개의 CPU 성능을 제공합니다. 이로써 데이터 과학자, 연구자, 엔지니어는 메모리 사용의 최적화보다 다음 혁신적 AI 디자인에 집중할 수 있습니다.
ResNet-50 training, dataset: ImageNet2012, BS=256 | NVIDIA V100 comparison: NVIDIA DGX-2™ server, 1x V100 SXM3-32GB, MXNet 1.5.1, container=19.11-py3, mixed precision, throughput: 1,525 images/sec | Intel comparison: Supermicro SYS-1029GQ-TRT, 1 socket Intel Gold 6240@2GHz/3.9Hz Turbo, Tensorflow 0.18, FP32 (only precision available), throughput: 48 images/sec
음성 인식에서 가상 개인 비서 교육과 자율 주행 차량에 대한 운전 교육에 이르기까지, 데이터 과학자는 AI를 사용하여 점점 더 복잡해지는 문제에 도전하고 있습니다. 이러한 유형의 문제를 해결하려면 현실성 있는 시간 안에 기하급수적으로 복잡해지는 딥 러닝 모델을 트레이닝해야 합니다.
640개 Tensor 코어를 탑재한 V100은 세계 최초로 딥 러닝 성능의 100테라플롭스(TFLOPS)란 장벽을 뛰어넘은 GPU입니다. 차세대 NVIDIA NVLink™는 최대 300GB/s로 여러 V100 GPU를 연결하여 세계에서 가장 강력한 컴퓨팅 서버를 구축합니다. 이전 시스템이라면 컴퓨팅 리소스를 몇 주 동안 소모했을 AI 모델을 이제는 며칠 안에 트레이닝할 수 있습니다. 트레이닝 시간이 이렇게 현저하게 줄어들었으니, AI는 이제 완전히 새로운 문제의 세계를 해결할 수 있을 것입니다.
BERT Base fine-tuning inference, dataset: SQuADv1.1, BS=1, sequence length=128 | NVIDIA V100 comparison: Supermicro SYS-4029GP-TRT, 1x V100-PCIE-16GB, pre-release container, mixed precision, NVIDIA TensorRT™ 6.0, throughput: 557 sentences/sec | Intel comparison: 1 socket Intel Gold 6240@2.6GHz/3.9Hz Turbo, FP32 (only precision available), OpenVINO MKL-DNN v0.18, throughput: 23.5 sentences/sec
하이퍼스케일 기업은 관련성이 가장 높은 정보, 서비스 및 제품과 고객을 연결하기 위해 AI를 활용하기 시작했습니다. 그러나 사용자 수요에 발맞춘다는 것은 벅찬 도전 과제입니다. 세계 최대 규모의 하이퍼스케일 기업을 예로 들자면, 모든 사용자가 하루에 단 3분 동안만 음성 인식 서비스를 사용할 경우 자사의 데이터센터 용량을 2배로 증대해야 한다고 최근 추정했습니다.
V100은 기존 하이퍼스케일 서버 랙에서 최대한의 성능을 발휘하도록 설계되었습니다. AI를 핵심으로 삼은 V100 GPU는 CPU 서버보다 47배 향상된 추론 성능을 제공합니다. 처리량과 효율성이 이렇게 엄청나게 늘어난 덕택에 현실적으로 AI 서비스를 확장할 수 있게 되었습니다.
Application (Dataset): MILC (APEX Medium) and Chroma (szscl21_24_128) | CPU Server: Dual-Socket Intel Xeon Platinum 8280 (Cascade Lake)
HPC는 현대 과학을 지탱하는 핵심 기반입니다. 날씨 예측에서 약물 발견, 새로운 에너지원 발굴에 이르기까지 연구자들은 대규모 컴퓨팅 시스템을 사용하여 우리가 사는 세계를 시뮬레이션하고 예측합니다. AI는 연구자가 대용량 데이터를 분석할 수 있도록 기존 HPC를 확장함으로써 시뮬레이션만으로 실세계를 완전하게 예측할 수 없는 경우 신속하게 통찰력을 획득합니다.
V100은 AI와 HPC의 융합을 위해 제작되었습니다. 또한, HPC 시스템이 과학적 시뮬레이션을 위한 연산 과학과 데이터에서 통찰을 찾는 데이터 과학 분야 모두에서 뛰어난 성능을 발휘할 수 있는 플랫폼을 제공합니다. 통합 아키텍처 내에 NVIDIA CUDA® 코어와 Tensor 코어를 페어링하고 V100 GPU를 탑재한 단일 서버는 기존의 모든 HPC 및 AI 워크로드를 처리하는 면에서 수백 개의 상용 CPU 기반 서버를 대체할 수 있습니다. 모든 연구자와 엔지니어는 이제 기술적 요구 사항이 매우 높은 작업을 AI 슈퍼컴퓨터를 활용하여 처리할 수 있습니다.
딥 러닝을 위한 궁극의 성능.
모든 워크로드에 대한 최고의 다용성.
Double-Precision 7.8 teraFLOPS
Single-Precision 15.7 teraFLOPS
Deep Learning 125 teraFLOPS
Double-Precision 7 teraFLOPS
Single-Precision 14 teraFLOPS
Deep Learning 112 teraFLOPS
Double-Precision 8.2 teraFLOPS
Single-Precision 16.4 teraFLOPS
Deep Learning 130 teraFLOPS
NVLink 300 GB/s
PCIe 32 GB/s
CAPACITY 32/16 GB HBM2
BANDWIDTH 900 GB/s
CAPACITY 32 GB HBM2
BANDWIDTH 1134 GB/s
300 WATTS
250 WATTS