Tensor 코어는 혼합 정밀도 컴퓨팅을 지원해 정확도를 유지하고 향상된 보안을 제공하면서 처리량을 가속화하도록 계산을 동적으로 조정할 수 있습니다. 최신 세대의 Tensor 코어는 광범위한 AI 및 고성능 컴퓨팅(HPC) 작업을 그 어느 때보다 빠르게 처리합니다. NVIDIA Tensor 코어는 매개 변수가 1조 개인 생성형 AI 모델 훈련 속도 4배 개선부터 추론 성능 30배 향상에 이르기까지 최신 AI 팩토리의 모든 워크로드를 가속화합니다.
Blackwell 아키텍처는 GPT- MoE-1.8T와 같은 대규모 모델에 대해 이전 NVIDIA Hopper™ 세대 대비 30배의 속도 향상을 제공합니다.
MoE-1.8T. 이러한 성능 향상은 5세대 Tensor 코어를 통해 가능해졌습니다. Blackwell Tensor 코어는 새로운 정밀도를 추가합니다,
커뮤니티에서 정의한 마이크로 스케일링 형식을 포함하여 더 높은 정밀도를 위해 더 나은 정확도와 손쉬운 교체를 제공합니다.
생성형 AI 모델의 규모와 복잡성이 폭발적으로 증가함에 따라 학습 및 추론 성능을 개선하는 것이 매우 중요해졌습니다. 이러한 컴퓨팅 요구 사항을 충족하기 위해 Blackwell은 다음과 같이 지원합니다. Tensor 코어는 커뮤니티 정의 마이크로 스케일링 형식을 비롯한 새로운 양자화 형식과 정밀도를 지원합니다.
Tensor 코어 기술 도입 이후 NVIDIA GPU는 최고 성능을 60배 향상하여 AI 및 HPC용 컴퓨팅 대중화의 동력을 제공했습니다. NVIDIA Hopper 아키텍처는 FP8을 사용하는 트랜스포머 엔진으로 4세대 Tensor 코어를 향상하여 FP16보다 6배 더 높은 성능으로 매개 변수가 1조 개인 모델을 훈련합니다. TF32, FP64, FP16 및 INT8 정밀도를 사용하는 3배 이상의 성능과 결합된 Hopper Tensor 코어는 모든 워크로드에 속도 향상을 제공합니다.
Tensor 코어는 NVIDIA NGC™ 카탈로그의 하드웨어, 네트워킹, 소프트웨어, 라이브러리, 최적화된 AI 모델 및 애플리케이션을 통합하는 완전한 NVIDIA 데이터센터 솔루션의 필수 구성 요소입니다.
연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.
Blackwell | Hopper | |
---|---|---|
지원되는 Tensor 코어 정밀도 | FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 | FP64, TF32, BF16, FP16, FP8, INT8 |
지원되는 CUDA®코어 정밀도 | FP64, FP32, FP16, BF16 | FP64, FP32, FP16, BF16, INT8 |
*예비 사양은 변경될 수 있습니다.
NVIDIA Blackwell에 대해 자세히 알아보기.