NVIDIA GB200 NVL2

NVIDIA GB200 NVL2

모든 데이터센터에서 컴퓨팅의 새로운 시대를 엽니다.

독보적인 단일 서버 성능

모든 데이터센터에 새로운 컴퓨팅 시대를 열어주는 NVIDIA GB200 Grace™ Blackwell NVL2 플랫폼은 2개의 Blackwell GPU와 2개의 Grace GPU를 통해 메인스트림 LLM(대규모 언어 모델) 추론, 벡터 데이터베이스 검색, 그리고 데이터 처리를 위한 탁월한 성능을 제공합니다. 스케일아웃 단일 노드 NVIDIA MGX™ 아키텍처로 설계되어 다양한 시스템 설계 및 네트워킹 옵션을 통해 가속 컴퓨팅을 기존 데이터센터 인프라에 원활하게 통합할 수 있습니다.

컴퓨터 업계, 차세대 산업혁명을 위한 AI 공장과 데이터 센터 구축을 위해 NVIDIA와 함께하고 있습니다.

Computex 2024에서 세계 최고의 컴퓨터 제조업체들이 NVIDIA와 함께 차세대 산업 혁명을 주도할 GB200 NVL2를 비롯한 최신 NVIDIA Blackwell 기반 시스템을 공개했습니다.

하이라이트

가속 컴퓨팅 강화

Llama 3 추론

5배

벡터 테이터베이스 검색

9배

데이터 처리

18배

Llama3 LLM 추론: 토큰-토큰 레이턴시(TTL) = 실시간 50밀리초(ms), 첫 번째 토큰 레이턴시(FTL) = 2s, 입력 시퀀스 길이 = 2.048, 출력 시퀀스 길이 = 1,024 출력, NVIDIA HGX™ H100 공랭식: 400GB InfiniBand(IB) 네트워크 8개와 GB200 NVL2 공랭식 단일 노드, GPU당 성능 비교
NVIDIA Grace CPU와 Blackwell GPU가 공유하는 메모리를 사용한 RAG 파이프라인 내 벡터 데이터베이스 검색 성능. x86 1개, H100 GPU 1개, GB200 NVL2 노드의 GPU 1개.
데이터 처리: TPC-H Q4 쿼리에서 파생된 Snappy/Deflate 압축을 활용한 데이터베이스 조인 및 집계 워크로드. GB200 NVL2 노드의 x86, H100 단일 GU 및 단일 GPU에 대한 맞춤형 쿼리 구현: GB200과 Intel Xeon 8480+
예상 성능은 변경될 수 있습니다.

실시간 주요 LLM 추론

GB200 NVL2는 2개의 Grace CPU와 2개의 Blackwell GPU 간에 공유되는 최대 1.3테라바이트(TB)의 대규모 코히어런트 메모리를 제공합니다. 이 공유 메모리는 5세대 NVIDIA® NVLink™ 및 고속 칩 투 칩(C2C) 연결과 결합되어 Llama 3 70B와 같은 주류 언어 모델에 5배 더 빠른 실시간 LLM 추론 성능을 제공합니다.

벡터 테이터베이스 검색

GB200 NLV2는 RAG 벡터 검색 작업을 최대 9배까지 가속화합니다. Wikipedia 데이터 세트의 벡터 데이터베이스는 200기가바이트(GB)가 넘으며, Grace CPU의 960GB 메모리와 900GB/s 고속 C2C 링크에 대한 액세스는 레이턴시가 짧은 벡터 검색을 강화시킵니다.

데이터 처리

데이터베이스는 엔터프라이즈에서 대량의 데이터를 취급, 처리, 분석하는 데 중요한 역할을 합니다. GB200 NVL2는 NVIDIA Blackwell 아키텍처의 고대역폭 메모리 성능 NVLink-C2C 및 전용 압축 해제 엔진을 활용하여 CPU에 비해 주요 데이터베이스 쿼리 속도를 18배 높입니다.

기능

기술 혁신

Blackwell 아키텍처

NVIDIA Blackwell 아키텍처는 가속 컴퓨팅에 획기적인 발전을 제공하여 비교할 수 없는 성능, 효율성, 규모로 컴퓨팅의 새로운 시대를 열고 있습니다.

NVIDIA Grace CPU

NVIDIA Grace CPU 슈퍼칩은 AI, 클라우드, 고성능 컴퓨팅(HPC) 애플리케이션을 실행하는 최신 데이터센터를 위해 설계된 획기적인 프로세서입니다. 현재 최고의 서버 프로세서 대비 2배의 에너지 효율로 뛰어난 성능과 메모리 대역폭을 제공합니다.

NVLINK C2C

NVIDIA NVLink-C2C는 각 Grace CPU와 Blackwell GPU를 900GB/s로 일관되게 상호 연결합니다. GB200 NVL2는 NVLink-C2C와 5세대 NVLink를 모두 사용하여 가속화된 AI를 위한 1.4TB 코히어런트 메모리 모델을 제공합니다.

키 값(KV) 캐싱

키 값(KV) 캐싱은 대화 컨텍스트와 기록을 저장하여 LLM 응답 속도를 향상시킵니다. GB200 NVL2는 PCIe보다 7배 빠른 NVLink-C2C로 연결된 완전 코히어런트 Grace GPU와 Blackwell GPU 메모리를 통해 KV 캐싱을 최적화하여 LLM이 x86 기반 GPU 구현보다 더 빠르게 단어를 예측할 수 있도록 합니다.

5세대 NVIDIA NVLink

엑사스케일 컴퓨팅과 매개 변수가 조 단위인 AI 모델의 잠재력을 최대한 발굴하려면 서버 클러스터의 GPU 간에 빠르고 원활한 통신이 필요합니다. 5세대 NVLink는 조 단위 및 수조 단위 매개 변수의 AI 모델 성능을 가속화하는 스케일업 상호 연결 기술입니다.

NVIDIA 네트워킹

데이터센터의 네트워크는 분산된 AI 모델 훈련 및 생성형 AI 성능의 중추 역할을 하며 AI의 발전과 성능을 주도하는 데 중요한 역할을 합니다. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 이더넷NVIDIA BlueField®-3 DPUs는 최적의 애플리케이션 성능을 위해 수백수천 개의 Blackwell GPU에서 효율적인 확장성을 지원합니다.

사양

GB200 NVL2¹ 사양

구성 Grace CPU 2개, Blackwell GPU 2개
FP4 Tensor 코어² 40 PFLOPS
FP8/FP6 Tensor 코어² 20 PFLOPS
INT8 Tensor 코어² 20 POPS
FP16/BF16 Tensor 코어² 10 PFLOPS
TF32 Tensor 코어² 5 PFLOPS
FP32 180 TFLOPS
FP64/FP64 Tensor 코어 90 TFLOPS
GPU 메모리 | 대역폭 최대 384GB | 16TB/s
CPU 코어 수 Arm® Neoverse V2 코어 144개
LPDDR5X 메모리 | Bandwith 최대 960GB | 최대 1,024GB/s
인터커넥트 NVLink: 1.8TB/s
NVLink-C2C: 2x 900GB/s
PCIe Gen 6: 2x 256GB/s
서버 옵션 NVIDIA MGX를 사용하는 다양한 NVIDIA GB200 NVL2 구성 옵션
NVIDIA Grace Blackwell NVL72

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72는 랙 규모 디자인으로 36개의 GB200 슈퍼칩을 연결합니다. GB200 NVL72는 단일 대규모 GPU 역할을 하는 72GPU NVLink 도메인을 자랑하는 수랭식 랙 규모의 솔루션입니다.

지금 시작하기

뉴스레터 구독

등록하고 NVIDIA Blackwell 출시 시기를 알아보세요.