NVIDIA H100 Tensor 코어 GPU

모든 데이터센터를 위한 전례 없는 성능, 확장성, 보안

가속화된 컴퓨팅을 위한 비약적인 도약

NVIDIA H100 Tensor 코어 GPU로 모든 워크로드에 대해 전례 없는 성능, 확장성, 보안을 달성하세요. NVIDIA® NVLink® 스위치 시스템을 사용하면 최대 256개의 H100을 연결하여 엑사스케일 워크로드를 가속화하고 전용 트랜스포머 엔진으로 매개 변수가 조 단위인 언어 모델을 처리할 수 있습니다. 여러 기술 혁신이 결합된 H100은 대규모 언어 모델의 속도를 이전 세대에 비해 30배 더 향상하여 업계를 선도하는 대화형 AI를 제공할 수 있습니다.

대규모 언어 모델 추론의 슈퍼차지

대규모 언어 모델 추론의 슈퍼차지

최대 1,750억 개의 파라미터를 추론하는 LLM의 경우, NV링크 브리지가 있는 PCIe 기반 H100 NVL은 Transformer 엔진, NV링크 및 188GB HBM3 메모리를 활용하여 모든 데이터센터에서 최적의 성능과 간편한 확장을 제공함으로써 LLM을 메인스트림으로 가져옵니다. H100 NVL GPU가 탑재된 서버는 전력 제약이 있는 데이터센터 환경에서 낮은 레이턴시를 유지하면서 NVIDIA DGX™ A100 시스템보다 GPT-175B 모델 성능을 최대 12배까지 향상시킵니다.

엔터프라이즈 AI를 사용할 준비가 되셨나요?

이제 AI를 엔터프라이즈에 도입하는 것이 주류가 되었으며, 조직에는 이 새로운 시대로 속도를 내어 나아가기 위한 엔드 투 엔드 AI 지원 인프라가 필요합니다.

메인스트림 서버용 H100에는 엔터프라이즈 지원을 포함한 NVIDIA AI Enterprise 소프트웨어 제품군 5년 구독이 함께 제공되어 최상의 성능으로 AI 채택을 간소화합니다. 따라서 조직은 AI 챗봇, 추천 엔진, 비전 AI 등과 같은 H100 가속 AI 워크플로우를 구축하는 데 필요한 AI 프레임워크와 도구에 액세스할 수 있습니다.

워크로드를 엔터프라이즈에서 엑사스케일까지 안전하게 가속화하세요.

초대형 모델에서 최대 9배의 AI 훈련

다양한 전문가(3,950억 매개 변수)

Transformational AI Training

혁신적인 AI 훈련

H100은 4세대 Tensor 코어와 FP8 정밀도의 트랜스포머 엔진을 탑재하여 전문가 혼합(MoE) 모델을 이전 세대보다 최대 9배 더 빠르게 훈련합니다. 900GB/s의 GPU 간 상호 연결을 제공하는 4세대 NVLink, 노드 전반의 모든 GPU에서 집단 통신을 가속화하는 NVLINK 스위치 시스템, PCIe Gen5, NVIDIA Magnum IO™ 소프트웨어의 조합은 소규모 엔터프라이즈에서 대규모의 통합 GPU 클러스터에 이르기까지 효율적인 확장성을 제공합니다.

데이터센터 규모로 H100 GPU를 배포하면 탁월한 성능을 제공하며 차세대 엑사스케일 고성능 컴퓨팅(HPC)과 매개 변수가 조 단위인 AI를 모든 연구원이 이용할 수 있습니다.

실시간 딥 러닝 추론

AI는 동등하게 광범위한 신경망을 사용하여 다양한 비즈니스 문제를 해결합니다. 뛰어난 AI 추론 가속기는 최고의 성능뿐만 아니라 이러한 네트워크를 가속화할 수 있는 다용성도 제공해야 합니다.

H100은 NVIDIA의 업계 최고의 추론 리더십을 더욱 강화하여 추론을 최대 30배 가속화하고 지연 시간을 최소화합니다. 4세대 Tensor 코어는 FP64, TF32, FP32, FP16, INT8, 그리고 이제 FP8도 포함해 모든 정밀도에서 속도를 개선하여 대규모 언어 모델의 정확도를 유지하면서 메모리 사용량을 줄이고 성능을 향상합니다..

초대형 모델에서 최대 30배 더 높은 AI 추론 성능

Megatron 챗봇 추론(5,300억 매개 변수)

실시간 딥 러닝 추론

HPC 애플리케이션 성능 최대 7배

AI 융합 HPC 애플리케이션

엑사스케일 고성능 컴퓨팅

NVIDIA 데이터센터 플랫폼은 무어의 법칙을 뛰어넘는 성능 향상을 일관적으로 제공합니다. 또한 H100의 새롭고 획기적인 AI 기능은 HPC+AI의 성능을 더욱 증폭하여 전 세계의 주요 난제들을 해결하기 위해 노력하는 과학자와 연구원의 연구 시간을 단축합니다.

H100은 배정밀도 Tensor 코어의 부동 소수점 연산(FLOPS)을 3배로 증가시켜 HPC에 60테라플롭스의 FP64 컴퓨팅을 제공합니다. AI 융합 HPC 애플리케이션은 H100의 TF32 정밀도를 활용하여 코드 변경 없이 단정밀도와 행렬 곱셈 연산에서 1페타플롭의 처리량을 달성할 수 있습니다.

H100은 또한 NVIDIA A100 Tensor 코어 GPU에 비해 7배 높은 성능과 더불어 DNA 서열 정렬을 위한 스미스-워터맨 등의 동적 프로그래밍 알고리즘에서 기존 듀얼 소켓 CPU 전용 서버에 비해 40배 더 빠른 속도를 제공하는 DPX 명령 기능이 있습니다.

데이터 분석 가속

AI 애플리케이션 개발에서는 대부분의 시간이 데이터 분석에 소요될 때가 많습니다. 대규모 데이터 세트가 여러 서버에 흩어져 있기 때문에 상용 CPU 전용 서버를 사용하는 스케일아웃 솔루션은 확장 가능한 컴퓨팅 성능이 부족하여 발목을 잡히곤 합니다.

H100을 탑재한 가속화 서버는 GPU당 3TB/s의 메모리 대역폭 및 NVLink와 NVSwitch를 통한 확장성과 함께 컴퓨팅 성능을 제공하여 고성능으로 데이터 분석을 처리하고 대규모 데이터 세트를 지원하도록 확장할 수 있습니다. NVIDIA 데이터센터 플랫폼은 Quantum-2 Infiniband, Magnum IO 소프트웨어, GPU 가속 Spark 3.0, NVIDIA RAPIDS와 결합하여 비교할 수 없는 성능과 효율성으로 이러한 막대한 워크로드를 가속화할 수 있는 독보적인 위치에 있습니다.

H100을 통해 가속화된 서버
NVIDIA MIG(Multi-Instance GPU)

엔터프라이즈 지원 활용률

IT 관리자들은 데이터센터에서 컴퓨팅 리소스의 활용률을(최대 활용률과 평균 활용률 모두) 극대화하려고 합니다. 이들은 종종 사용 중인 워크로드에 적합한 크기의 리소스로 컴퓨팅을 동적으로 재구성합니다.

H100의 2세대 MIG(Multi-Instance GPU)는 각 GPU를 최대 7개의 독립된 인스턴스로 안전하게 파티셔닝하여 활용률을 극대화합니다. 기밀 컴퓨팅을 지원하여 안전한 엔드 투 엔드 멀티 테넌트 사용이 가능한 H100은 클라우드 서비스 제공업체(CSP) 환경에 이상적입니다.

MIG를 사용하는 H100을 통해 인프라 관리자는 GPU 가속 인프라를 표준화하는 동시에 GPU 리소스를 더 세분화하여 유연하게 프로비저닝함으로써 개발자에게 적합한 양의 가속화 컴퓨팅을 제공하고 모든 GPU 리소스의 사용을 최적화할 수 있습니다.

내장된 기밀 컴퓨팅

오늘날의 기밀 컴퓨팅 솔루션은 CPU 기반이므로 AI 및 HPC와 같은 컴퓨팅 집약적인 워크로드에는 너무 제한적입니다. NVIDIA 기밀 컴퓨팅은 NVIDIA Hopper™ 아키텍처의 내장 보안 기능입니다. 이를 탑재한 H100은 세계 최초로 기밀 컴퓨팅 기능을 갖춘 가속기입니다. 사용자는 비교 불가한 수준으로 가속화된 H100 GPU에 액세스하면서 사용 중인 데이터와 애플리케이션의 기밀성과 무결성을 보호할 수 있습니다. NVIDIA 기밀 컴퓨팅은 단일 H100 GPU, 단일 노드 내의 다중 H100 GPU 또는 개별 MIG 인스턴스에서 실행되는 전체 워크로드를 보호하고 격리하는 하드웨어 기반의 신뢰할 수 있는 실행 환경(TEE)을 생성합니다. GPU 가속 애플리케이션은 TEE 내에서 변경하지 않고 실행할 수 있으며, 파티셔닝할 필요가 없습니다. 사용자는 AI 및 HPC용 NVIDIA 소프트웨어의 성능과 NVIDIA 기밀 컴퓨팅이 제공하는 하드웨어 RoT(Root of Trust)의 보안을 결합할 수 있습니다.

NVIDIA 기밀 컴퓨팅 솔루션
NVIDIA H100CX Converged Accelerator

The convergence of GPU and SmartNIC.

NVIDIA H100 CNX combines the power of H100 with the advanced networking capabilities of the NVIDIA ConnectX®-7 smart network interface card (SmartNIC) in a single, unique platform. This convergence delivers unparalleled performance for GPU-powered input/output (IO)-intensive workloads, such as distributed AI training in the enterprise data center and 5G processing at the edge.

NVIDIA 기밀 컴퓨팅 솔루션

대규모 AI 및 HPC의 독보적 성능

Hopper Tensor Core GPU는 NVIDIA Grace Hopper CPU+GPU 아키텍처를 지원합니다. 테라바이트 규모의 가속 컴퓨팅을 위해 특별히 제작되었으며, 대규모 모델 AI 및 HPC에서 10배 더 높은 성능을 제공합니다. NVIDIA Grace CPU는 Arm® 아키텍처의 유연성을 활용하여 처음부터 가속화 컴퓨팅을 위해 설계된 CPU 및 서버 아키텍처를 생성합니다. Hopper GPU와 Grace CPU가 결합되어 NVIDIA의 초고속 칩 간 상호 연결을 사용할 경우, PCIe Gen5보다 7배 빠른 900GB/s의 대역폭이 제공됩니다. 이 혁신적인 설계는 오늘날 가장 빠른 서버들과 비교할 때 GPU에 대해 최대 30배 높은 전체 대역폭을 제공하며, 테라바이트 규모의 데이터를 실행하는 애플리케이션에 최대 10배 높은 성능을 제공합니다.

제품 사양을 확인하세요.

폼 팩터 H100 SXM H100 PCIe H100 NVL2
FP64 34테라플롭스 26테라플롭스 68 teraFLOPs
FP64 Tensor 코어 67테라플롭스 51테라플롭스 134 teraFLOPs
FP32 67테라플롭스 51테라플롭스 134 teraFLOPs
TF32 Tensor 코어 989테라플롭스* 756테라플롭스* 1,979 teraFLOPs1
BFLOAT16 Tensor 코어 1,979테라플롭스 1,513테라플롭스 3,958 teraFLOPs1
FP16 Tensor 코어 1,979테라플롭스 1,513테라플롭스 3,958 teraFLOPs1
FP8 Tensor 코어 3,958테라플롭스 3,026테라플롭스 7,916 teraFLOPs1
INT8 Tensor 코어 3,958TOPS* 3,026TOPS* 7,916 TOPS1
GPU 메모리 80GB 80GB 188GB
GPU 메모리 대역폭 3.35TB/s 2TB/s 7.8TB/s
디코더 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
14 NVDEC
14 JPEG
최대 열 설계 전력(TDP) 최대 700W(구성 가능) 300~350W(구성 가능) 2x 350-400W
(구성 가능)
멀티 인스턴스 GPU(MIG) 최대 7개의 MIG, 각각 10GB 각 12GB에서 최대 14
MIGS
폼 팩터 SXM PCIe
듀얼 슬롯(공랭식)
PCIe 2개
듀얼 슬롯 공랭식
인터커넥트 NVLink: 900GB/s PCIe Gen5: 128GB/s NVLINK: 600GB/s PCIe Gen5: 128GB/s NVLink: 600GB/s
PCIe Gen5: 128GB/s
서버 옵션 4개 또는 8개의 GPU가 지원되는 NVIDIA HGX H100 파트너 및 NVIDIA-Certified Systems 8개의 GPU가 지원되는 NVIDIA DGX H100 GPU가 1~8개인 파트너 인증 시스템 및 NVIDIA-Certified System™ 파트너 및 NVIDIA
인증 시스템
(2~4쌍)
NVIDIA AI Enterprise 애드온 포함 항목 추가 사항

NVIDIA Hopper 아키텍처에 대해 자세히 알아보세요.