NVIDIA Triton™ 추론 서버를 사용하여 GPU, CPU 또는 기타 프로세서의 모든 프레임워크에서 훈련된 머신 러닝 또는 딥 러닝 모델에 대한 추론을 실행합니다. Triton 추론 서버는 모든 워크로드에서 AI 모델 배포 및 실행을 표준화하는 오픈 소스 소프트웨어입니다. NVIDIA AI 플랫폼의 일부이며 NVIDIA AI Enterprise와 함께 사용할 수 있습니다.
Triton은 거대 언어 모델(LLM) 추론을 위한 낮은 지연 시간과 높은 처리량을 제공합니다. 프로덕션에서 추론을 위해 LLM을 정의, 최적화 및 실행하는 오픈 소스 라이브러리인 TensorRT-LLM을 지원합니다.
Triton Model Ensembles를 사용하면 여러 모델, 파이프라인, 사전 및 후처리 단계로 AI 워크로드를 실행할 수 있습니다. CPU 또는 GPU에서 앙상블의 다른 부분을 실행할 수 있으며 앙상블 내부의 여러 프레임워크를 지원합니다.
PyTriton은 Python 개발자가 Triton을 코드 한 줄로 불러와 모델, 간단한 처리 함수 또는 전체 추론 파이프라인을 제공하여 프로토타이핑 및 테스트를 가속화할 수 있도록 해줍니다.
모델 분석기는 배치 크기, 정밀도, 동시 실행 인스턴스와 같은 최적의 모델 배포 구성을 찾는 데 필요한 시간을 줄입니다. 애플리케이션 지연 시간, 처리량 및 메모리 요구 사항을 충족하는 최적의 구성을 선택하는 데 도움이 됩니다.
TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, 사용자 지정 C++ 등을 포함한 Triton 추론 서버를 사용하여 모든 주요 프레임워크에 AI 모델을 배포하십시오.
동적 일괄 처리, 동시 실행, 최적의 구성, 오디오 및 비디오 스트리밍을 통해 처리량과 활용도를 극대화할 수 있습니다. Triton 추론 서버는 모든 NVIDIA GPU, x86 및 Arm CPU, AWS Inferentia를 지원합니다.
Triton 추론 서버를 확장용 Kubernetes, 모니터링용 Prometheus와 같은 DevOps 및 MLOps 솔루션에 통합합니다. 또한 모든 주요 클라우드와 온프레미스 AI 및 MLOps 플랫폼에서도 사용할 수 있습니다.
NVIDIA Triton 추론 서버를 포함한 NVIDIA AI Enterprise는 지원, 보안 및 API 안정성을 통해 가치를 창출하는 시간을 단축하도록 설계된 안전한 프로덕션 환경 지원 AI 소프트웨어 플랫폼입니다.
올바른 도구와 기술을 사용하여 모든 플랫폼에서 모든 애플리케이션에 맞게 AI를 배포, 실행 및 확장할 수 있습니다.
업계 리더가 Triton 추론 서버를 통해 혁신을 주도하는 방법을 알아보십시오.
Triton 추론 서버를 사용하면 조직이 프레임워크별 추론 서버를 단일 플랫폼으로 통합할 수 있습니다. 각 AI 프레임워크에 대해 별도의 서버를 배포하고 관리하는 대신, 단일 통합 서버로 작동하여 추론 서비스 비용을 절감합니다. Triton 추론 서버는 PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX, OpenVINO를 포함한 모든 주요 AI 프레임워크를 지원합니다.
올바른 도구와 기술을 사용하여 완전히 사용자 정의 가능한 다국어 음성 및 번역 AI 애플리케이션을 구축하고 배포하십시오.
최신 설명서, 튜토리얼, 기술 블로그 등의 NVIDIA Riva를 사용하여 개발을 시작하는 데 필요한 모든 것을 살펴보십시오.
NVIDIA 제품 전문가와 상담하여 NVIDIA AI Enterprise의 보안, API 안정성 및 지원을 통해 파일럿에서 프로덕션 환경으로 전환할 수 있습니다.