데이터 준비 작업의 성능을 가속화하여 파이프라인의 다음 단계로 빠르게 이동할 수 있습니다. 이를 통해 모델을 더 빠르게 학습시키면서 데이터 사이언티스트와 엔지니어는 가장 중요한 활동에 집중할 수 있습니다.
GPU 가속 Apache Spark™
GPU 가속 Apache Spark 데이터 분석, 머신 러닝, 딥 러닝 파이프라인용
Apache Spark™ 3 데이터 사이언스 파이프라인을 코드 변경 없이 GPU 가속화하여 인프라 비용을 대폭 낮추면서 데이터 처리 및 모델 트레이닝 속도를 높여 보십시오.
데이터 준비 작업의 성능을 가속화하여 파이프라인의 다음 단계로 빠르게 이동할 수 있습니다. 이를 통해 모델을 더 빠르게 학습시키면서 데이터 사이언티스트와 엔지니어는 가장 중요한 활동에 집중할 수 있습니다.
더 적은 비용으로 더 많은 작업을 수행하세요: NVIDIA® GPU의 Spark는 CPU에 비해 더 적은 하드웨어로 더 빠르게 작업을 완료하므로 조직의 시간뿐만 아니라 온프레미스 자본 비용 또는 클라우드 운영 비용도 절약할 수 있습니다.
RAPIDS 가속기를 포함한 엔드투엔드 AI 소프트웨어 플랫폼인 NVIDIA AI 엔터프라이즈를 사용하면 데이터 준비 및 처리부터 모델 트레이닝, 시뮬레이션 및 추론에 이르는 엔드투엔드 AI 파이프라인을 대규모로 가속화하여 생산 시간을 단축할 수 있습니다.
수많은 데이터 처리 작업의 “당혹스러운 병렬” 성질을 감안하면, Spark 데이터 처리 쿼리에 당연히 GPU의 아키텍처를 활용해야 하며 이는 GPU가 AI에서 DL 워크로드를 가속화하는 방식과 유사합니다. GPU 가속화는 개발자에게 투명하며 이러한 혜택을 얻기 위해 코드를 변경할 필요가 없습니다. 투명한 GPU 가속화를 제공하는 데 기여한 Spark 3의 주요 발전 사항 3가지:
NVIDIA CUDA® 는 NVIDIA GPU 아키텍처에서의 연산 작업 가속화를 지원하는 혁신적인 병렬 컴퓨팅 아키텍처입니다. NVIDIA에서 개발된 RAPIDS는 데이터 사이언스 파이프라인의 GPU 가속화를 지원하는 CUDA를 기반으로 계층화된 일련의 오픈 소스 라이브러리입니다.
NVIDIA가 제작한 Spark 3용 RAPIDS 가속기는 Spark SQL과 DataFrame 작업의 성능을 대폭 향상해 ETL 파이프라인을 가로채서 가속화합니다.
Spark 3은 RAPIDS 가속기가 SQL 및 DataFrame 연산자 가속화를 위해 연결되는 Catalyst 쿼리 최적화 프로그램의 주상 처리를 지원합니다. 쿼리 계획을 실행할 때 이러한 연산자는 Spark 클러스터 내부의 GPU에서 실행될 수 있습니다.
또한, NVIDIA는 Spark 프로세스 간 데이터 전송을 최적화하는 새로운 Spark 셔플 구현을 만들었습니다. 이 셔플 구현은 UCX, RDMA 및 NCCL을 포함하는 GPU 가속 통신 라이브러리에 구축됩니다.
Spark 3은 CPU 및 시스템 메모리와 함께 GPU를 첫 번째 클래스 리소스로 인식합니다. 이를 통해 Spark 3은 작업 가속화 및 완료에 필요한 경우 해당 GPU 리소스가 포함된 서버로 GPU 가속 워크로드를 직접 배치할 수 있습니다.
NVIDIA 엔지니어가 이 주요 Spark 기능 향상에 기여하여 Spark 독립형, YARN 및 Kubernetes 클러스터의 GPU 리소스에서 Spark 애플리케이션 실행이 가능합니다.
아파치 스파크용 RAPIDS 가속기는 NVIDIA AI 엔터프라이즈와 함께 사용할 수 있습니다. Amazon EMR, Google Cloud Dataproc, Databricks 등 온프레미스에서 클라우드에 이르는 인증된 플랫폼에서 엔터프라이즈급 지원, 보안 및 안정성에 대한 완전한 액세스와 함께 Spark 배포에 최적화된 성능을 얻으세요. 보장된 응답 시간, 우선 보안 알림, NVIDIA의 데이터 사이언스 전문가에 대한 액세스를 활용하세요.
AI 성능으로 빅 데이터의 가치를 최대한 활용하고 싶으신가요? 새로운 백서인, “Apache Spark™ 3.x 가속화 – NVIDIA GPU를 활용하여 차세대 분석 및 AI 강화"를 다운로드해 Apache Spark™ 의 다음 혁신에 관해 자세히 알아보세요.