NVIDIA H100 Tensor 코어 GPU

모든 데이터 센터에 탁월한 성능, 뛰어난 확장성, 그리고 강화된 보안을 제공합니다.

개요
워크로드
H100 NVL
NVIDIA AI Enterprise
사양

개요

개요
워크로드
H100 NVL
NVIDIA AI Enterprise
사양

가속화된 컴퓨팅을 위한 비약적인 도약

NVIDIA H100 텐서 코어 GPU는 모든 워크로드에 탁월한 성능, 확장성 및 강화된 보안을 제공합니다. H100은 NVIDIA Hopper™ 아키텍처를 기반으로 한 획기적인 혁신을 통해 업계 최고의 대화형 AI를 제공하여 거대 언어 모델(LLM) 속도를 30배까지 높입니다. 또한, H100에는 매개 변수가 조 단위인 언어 모델을 해결하기 위한 전용 트랜스포머 엔진이 포함되어 있습니다.

NVIDIA H100 데이터시트 보기

NVIDIA H100 NVL 제품 개요

엔터프라이즈에서 엑사스케일까지 워크로드를 안전하게 가속화

GPT-3에서 최대 4배 더 많은 AI 훈련

예상 성능은 변경될 수 있습니다. GPT-3 175B 트레이닝 A100 클러스터: HDR IB 네트워크, H100 클러스터: NDR IB 네트워크 | 1T 토큰 데이터 세트, A100 클러스터에 395B 파라미터를 사용한 Mixture of Experts(MoE) Training Transformer Switch-XXL 변형: HDR IB 네트워크, H100 클러스터: 표시된 경우, NVLink Switch 시스템이 포함된 NDR IB 네트워크.

혁신적인 AI 훈련

H100은 4세대 Tensor 코어와 FP8 정밀도를 갖춘 트랜스포머 엔진을 탑재하여 이전 세대보다 GPT-3(175B) 모델의 훈련 속도를 최대 4배까지 높입니다. GPU 간 상호 연결 속도를 초당 900GB까지 제공하는 4세대 NVLink, 노드 전반에서 모든 GPU의 통신 속도를 높이는 NDR Quantum-2 InfiniBand 네트워킹, PCIe Gen5, NVIDIA Magnum IO™ 소프트웨어의 조합은 소규모 엔터프라이즈 시스템부터 대규모 통합 GPU 클러스터에 이르기까지 효율적인 확장성을 제공합니다.

데이터센터 규모로 H100 GPU를 배포하면 탁월한 성능을 제공하고, 모든 연구자가 사용할 수 있는 차세대 엑사스케일 고성능 컴퓨팅(HPC)과 수조 개의 매개변수를 가진 AI를 활용할 수 있도록 지원합니다.

NVIDIA LaunchPad에서 NVIDIA AI 및 NVIDIA H100 경험하기

실시간 딥 러닝 추론

AI는 동등하게 광범위한 뉴럴 네트워크를 사용하여 다양한 비즈니스 과제를 해결합니다. 뛰어난 AI 추론 가속기는 최고의 성능뿐만 아니라 이러한 네트워크를 가속화할 수 있는 다용성도 제공해야 합니다.

H100은 추론 속도를 최대 30배까지 높이고 지연 시간을 최소화하는 여러 발전을 통해 업계 최고의 NVIDIA 추론 리더십을 강화합니다. 4세대 Tensor 코어는 FP64, TF32, FP32, FP16, INT8, 그리고 이제 FP8을 포함한 모든 정밀도에서 속도를 개선하여 LLM의 정확도를 유지하면서 메모리 사용량을 줄이고 성능을 향상시킵니다.

대규모 모델에서 최대 30배 향상된 AI 추론 성능

Megatron 챗봇 추론(5,300억 개의 매개 변수)

예상 성능은 변경될 수 있습니다. 입력 시퀀스 길이=128, 출력 시퀀스 길이=20에서 Megatron 530B 매개 변수 모델 기반 챗봇에 대한 추론 | A100 클러스터: HDR IB 네트워크 | H100 클러스터: NVLink Switch 시스템, NDR IB

HPC 애플리케이션 성능 최대 7배

엑사스케일 고성능 컴퓨팅

NVIDIA 데이터센터 플랫폼은 무어의 법칙을 뛰어넘는 성능 향상을 지속적으로 제공합니다. 또한 H100의 획기적인 AI 기능은 HPC+AI의 성능을 더욱 강화하여 세계에서 가장 중요한 과제를 해결하기 위해 노력하는 과학자와 연구원의 발견 시간을 단축할 수 있도록 지원합니다.

H100은 배정밀도 Tensor 코어의 부동 소수점 연산(FLOPS)을 3배로 증가시켜 HPC에 60테라플롭스의 FP64 컴퓨팅을 제공합니다. 또한 AI 융합 HPC 애플리케이션은 H1000의 TF32 정밀도를 활용하여 코드 변경 없이 단정밀도 행렬 곱셈 연산에 대해 1페타플롭의 처리량을 달성할 수 있습니다.

H100은 DNA 서열 정렬을 위한 Smith-Waterman, 단백질 구조 예측을 위한 단백질 정렬과 같은 동적 프로그래밍 알고리즘에서 A100 대비 7배, CPU 대비 40배 빠른 속도를 제공하는 새로운 DPX 명령도 제공합니다.

HPC 애플리케이션에서 최신 GPU 성능 검토

DPX 설명 비교(NVIDIA HGX™ H100 4-GPU 및 듀얼 소켓 32코어 IceLake)

데이터 분석 가속화

AI 애플리케이션 개발에서는 대부분의 시간이 데이터 분석에 소요될 때가 많습니다. 대규모 데이터세트가 여러 서버에 분산되어 있기 때문에 상용 CPU 전용 서버를 사용하는 스케일아웃 솔루션은 확장 가능한 컴퓨팅 성능이 부족하여 어려움을 겪곤 합니다.

H100을 탑재한 가속 서버는 GPU당 3TB/s의 메모리 대역폭과 NVLink 및 NVSwitch™를 통한 확장성과 함께 고성능으로 데이터 분석을 처리하고 대규모 데이터세트를 지원하도록 확장할 수 있는 컴퓨팅 성능을 제공합니다. NVIDIA 데이터센터 플랫폼은 Quantum-2 InfiniBand, Magnum IO 소프트웨어, GPU 가속 Spark 3.0, NVIDIA RAPIDS™와 결합하여 높은 성능과 효율성으로 이러한 막대한 워크로드를 가속화할 수 있는 독보적인 위치에 있습니다.

엔터프라이즈 지원 활용률

IT 관리자는 데이터센터의 컴퓨팅 리소스 활용률(최대 및 평균)을 극대화하려고 합니다. 이들은 사용 중인 워크로드에 적합한 리소스 규모를 조정하기 위해 컴퓨팅의 동적 재구성을 자주 채택합니다.

인프라 관리자는 MIG가 탑재된 H100을 통해 GPU 가속 인프라를 표준화하는 동시에 GPU 리소스를 보다 정밀하게 프로비저닝하여 개발자에게 적절한 수준의 가속 컴퓨팅을 안전하게 제공하고 모든 GPU 리소스 사용을 최적화할 있는 유연성을 제공합니다.

MIG에 대해 자세히 알아보기

내장된 컨피덴셜 컴퓨팅

기존의 컨피덴셜 컴퓨팅 솔루션은 CPU 기반으로, 대규모 AI와 같은 컴퓨팅 집약적인 워크로드에는 너무 제한적입니다. NVIDIA Hopper 아키텍처에 내장된 보안 기능인 NVIDIA 컨피덴셜 컴퓨팅 덕분에 H100은 이러한 기능을 갖춘 세계 최초의 가속기가 되었습니다. NVIDIA Blackwell을 통해 성능을 기하급수적으로 높이는 동시에 사용 중인 데이터와 애플리케이션의 기밀성 및 무결성을 보호할 수 있는 기회를 갖게 되며, 이를 통해 이전과는 전혀 다른 방식으로 데이터 인사이트를 확보할 수 있습니다. 이제 고객은 가장 고성능으로 전체 워크로드를 보호하고 격리하는 하드웨어 기반의 신뢰할 수 있는 실행 환경(TEE)을 갖출 수 있습니다.

NVIDIA 컨피덴셜 컴퓨팅에 대해 자세히 알아보기

대규모 AI 및 HPC를 위한 탁월한 성능

Hopper Tensor Core GPU는 테라바이트급 가속 컴퓨팅을 위해 특별히 설계되었으며, 대규모 모델 AI 및 HPC에서 10배 더 높은 성능을 제공하는 NVIDIA Grace Hopper CPU+GPU 아키텍처를 지원할 예정입니다. NVIDIA Grace CPU는 Arm® 아키텍처의 유연성을 활용하여 처음부터 가속 컴퓨팅을 위해 설계된 CPU 및 서버 아키텍처를 생성합니다. Hopper GPU는 NVIDIA의 초고속 칩 간 상호 연결을 사용하여 Grace CPU와 페어링되며 PCIe Gen5보다 7배 빠른 900GB/s의 대역폭을 제공합니다. 이 혁신적인 설계는 오늘날 가장 빠른 서버들과 비교할 때 GPU에 대해 최대 30배 높은 전체 시스템 메모리 대역폭을 제공하며, 테라바이트 규모의 데이터를 실행하는 애플리케이션에 최대 10배 높은 성능을 제공합니다.

NVIDIA Grace에 대해 자세히 알아보기

H100 NVL을 사용해 거대 언어 모델 추론 강화

최대 700억 개의 매개 변수를 가진 LLM(Llama 2 70B)의 경우, NVLink 브리지를 탑재한 PCIe 기반 NVIDIA H100 NVL은 트랜스포머 엔진, NVLink 및 188GB HBM3 메모리를 활용하여 모든 데이터센터에서 최적의 성능과 간편한 확장성을 제공하여 LLM을 주류로 이끌고 있습니다. H100 NVL GPU가 장착된 서버는 전력 제한적인 데이터센터 환경에서 짧은 지연 시간을 유지하는 동시에 NVIDIA A100 시스템에 비해 Llama 2 70B 성능을 최대 5배까지 높입니다.

기업용: 개발 및 배포를 간소화하는 AI 소프트웨어

NVIDIA H100 NVL은 5년 NVIDIA AI Enterprise 구독이 함께 제공되며, 엔터프라이즈 AI 지원 플랫폼을 구축하는 방식을 간소화합니다. H100은 컴퓨터 비전, 음성 AI, 검색 증강 생성(RAG) 등을 포함한 프로덕션 지원 생성형 AI 솔루션을 위한 AI 개발과 배포를 가속화합니다. NVIDIA AI Enterprise에는 기업의 생성형 AI 배포 속도를 높이기 위해 설계된 사용하기 쉬운 마이크로서비스 세트인 NVIDIA NIMTM^{이 포함되어 있습니다. 함께 배포하면 엔터프라이즈급 보안, 관리 용이성, 안정성 및 지원이 제공됩니다. 이를 통해 더 빠른 비즈니스 가치와 실행 가능한 인사이트를 제공하는 성능 최적화된 AI 솔루션이 탄생합니다.}

NVIDIA AI Enterprise 라이선스 활성화

제품 사양

	H100 SXM	H100 NVL
FP64	34테라플롭스	30테라플롭스
FP64 Tensor 코어	67테라플롭스	60테라플롭스
FP32	67테라플롭스	60테라플롭스
TF32 Tensor 코어^*	989테라플롭스	835테라플롭스
BFLOAT16 Tensor 코어^*	1,979테라플롭스	1,671테라플롭스
FP16 Tensor 코어^*	1,979테라플롭스	1,671테라플롭스
FP8 Tensor 코어^*	3,958테라플롭스	3,341테라플롭스
INT8 Tensor 코어^*	3,958TOPS	3,341TOPS
GPU 메모리	80GB	94GB
GPU 메모리 대역폭	3.35TB/s	3.9TB/s
디코더	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG
최대 열 설계 전력(TDP)	최대 700W(구성 가능)	350-400W(구성 가능)
멀티 인스턴스 GPU(MIG)	최대 7개의 MIG, 각각 10GB	최대 7개의 MIG, 각각 12GB
폼 팩터	SXM	PCIe 듀얼 슬롯(공랭식)
인터커넥트	NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s	NVIDIA NVLink: 600GB/s PCIe Gen5: 128GB/s
서버 옵션	GPU가 4개 또는 8개인 NVIDIA HGX H100 파트너 및 NVIDIA-Certified Systems™ GPU가 8개인 NVIDIA DGX H100	GPU가 1~8개인 파트너 인증 시스템 및 NVIDIA-Certified System™
NVIDIA AI Enterprise	Add-on	포함 항목

* 희소성 포함

NVIDIA Hopper 아키텍처에 대해 자세히 알아보세요.

백서 읽기