Llama3 LLM 추론: 토큰-토큰 레이턴시(TTL) = 실시간 50밀리초(ms), 첫 번째 토큰 레이턴시(FTL) = 2s, 입력 시퀀스 길이 = 2.048, 출력 시퀀스 길이 = 1,024 출력, NVIDIA HGX™ H100 공랭식: 400GB InfiniBand(IB) 네트워크 8개와 GB200 NVL2 공랭식 단일 노드, GPU당 성능 비교
NVIDIA Grace CPU와 Blackwell GPU가 공유하는 메모리를 사용한 RAG 파이프라인 내 벡터 데이터베이스 검색 성능. x86 1개, H100 GPU 1개, GB200 NVL2 노드의 GPU 1개.
데이터 처리: TPC-H Q4 쿼리에서 파생된 Snappy/Deflate 압축을 활용한 데이터베이스 조인 및 집계 워크로드. GB200 NVL2 노드의 x86, H100 단일 GU 및 단일 GPU에 대한 맞춤형 쿼리 구현: GB200과 Intel Xeon 8480+
예상 성능은 변경될 수 있습니다.