AI 모델은 대화형 AI와 같은 차세대 도전 과제를 풀어나가면서 그 복잡성 역시 폭발적으로 커지고 있습니다. 이러한 모델을 훈련시키려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다.
Tensor Float(TF32)를 갖춘 NVIDIA A100의 Tensor 코어는 코드를 변경할 필요 없이 이전 세대 NVIDIA Volta보다 최대 20배 높은 성능과 더불어 자동 혼합 정밀도 및 FP16으로 성능이 추가로 2배나 향상됩니다. NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® InfiniBand®, NVIDIA Magnum IO™ SDK와 함께 사용하면 수천 개의 A100 GPU로 확장할 수 있습니다.
2,048개의 A100 GPU를 통해 BERT와 같은 다양한 규모의 훈련 워크로드를 1분 안에 해결할 수 있으며, 해결까지 걸리는 시간은 세계 신기록을 자랑합니다.
딥러닝 추천 모델(DLRM)과 같은 방대한 데이터 테이블이 있는 최대형 모델의 경우, A100 80GB는 노드당 1.3TB의 통합 메모리를 달성하며 처리량이 A100 40GB보다 3배 더 많습니다.
MLPerf에서 보여준 NVIDIA의 리더십은 업계 전반의 AI 훈련 벤치마크에서 여러 가지 성능 기록을 세웠습니다.