추론

NVIDIA Triton 추론 서버

모든 플랫폼에서 모든 애플리케이션에 맞게 AI를 배포, 실행 및 확장합니다.

개요

모든 AI 워크로드에 대한 추론

NVIDIA Triton™ 추론 서버를 사용하여 GPU, CPU 또는 기타 프로세서의 모든 프레임워크에서 훈련된 머신 러닝 또는 딥 러닝 모델에 대한 추론을 실행합니다. Triton 추론 서버는 모든 워크로드에서 AI 모델 배포 및 실행을 표준화하는 오픈 소스 소프트웨어입니다. NVIDIA AI 플랫폼의 일부이며 NVIDIA AI Enterprise와 함께 사용할 수 있습니다.

LLM 배포, 최적화 및 벤치마킹

Triton 추론 서버를 사용하여 거대 언어 모델(LLM)을 효율적으로 제공하는 방법에 대한 단계별 지침을 확인하십시오.

기능

NVIDIA Triton 추론 서버 기능 및 도구 살펴보기

모든 교육 및 추론 프레임워크 지원

거대 언어 모델 추론

Triton은 거대 언어 모델(LLM) 추론을 위한 낮은 지연 시간과 높은 처리량을 제공합니다. 프로덕션에서 추론을 위해 LLM을 정의, 최적화 및 실행하는 오픈 소스 라이브러리인 TensorRT-LLM을 지원합니다.

모든 플랫폼에서의 고성능 추론

모델 앙상블

Triton Model Ensembles를 사용하면 여러 모델, 파이프라인, 사전 및 후처리 단계로 AI 워크로드를 실행할 수 있습니다. CPU 또는 GPU에서 앙상블의 다른 부분을 실행할 수 있으며 앙상블 내부의 여러 프레임워크를 지원합니다.

오픈 소스 및 DevOps/MLOps용으로 설계

NVIDIA PyTriton

PyTriton은 Python 개발자가 Triton을 코드 한 줄로 불러와 모델, 간단한 처리 함수 또는 전체 추론 파이프라인을 제공하여 프로토타이핑 및 테스트를 가속화할 수 있도록 해줍니다.

엔터프라이즈급 보안 및 API 안정성

NVIDIA Triton 모델 분석기

모델 분석기는 배치 크기, 정밀도, 동시 실행 인스턴스와 같은 최적의 모델 배포 구성을 찾는 데 필요한 시간을 줄입니다. 애플리케이션 지연 시간, 처리량 및 메모리 요구 사항을 충족하는 최적의 구성을 선택하는 데 도움이 됩니다.

혜택

Triton 추론 서버의 장점

모든 훈련 및 추론 프레임워크 지원

모든 훈련 및 추론 프레임워크 지원

TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, 사용자 지정 C++ 등을 포함한 Triton 추론 서버를 사용하여 모든 주요 프레임워크에 AI 모델을 배포하십시오.

모든 플랫폼에서의 고성능 추론

모든 플랫폼에서의 고성능 추론

동적 일괄 처리, 동시 실행, 최적의 구성, 오디오 및 비디오 스트리밍을 통해 처리량과 활용도를 극대화할 수 있습니다. Triton 추론 서버는 모든 NVIDIA GPU, x86 및 Arm CPU, AWS Inferentia를 지원합니다.

오픈 소스 및 DevOps/MLOps용으로 설계

오픈 소스 및 DevOps/MLOps용으로 설계

Triton 추론 서버를 확장용 Kubernetes, 모니터링용 Prometheus와 같은 DevOps 및 MLOps 솔루션에 통합합니다. 또한 모든 주요 클라우드와 온프레미스 AI 및 MLOps 플랫폼에서도 사용할 수 있습니다.

엔터프라이즈급 보안 및 API 안정성

엔터프라이즈급 보안, 관리 용이성 및 API 안정성

NVIDIA Triton 추론 서버를 포함한 NVIDIA AI Enterprise는 지원, 보안 및 API 안정성을 통해 가치를 창출하는 시간을 단축하도록 설계된 안전한 프로덕션 환경 지원 AI 소프트웨어 플랫폼입니다.

시작 옵션

NVIDIA Triton 시작하기

올바른 도구와 기술을 사용하여 모든 플랫폼에서 모든 애플리케이션에 맞게 AI를 배포, 실행 및 확장할 수 있습니다.

개발

개발을 위한 Triton 추론 서버 오픈소스 코드에 액세스하려는 개인의 경우.

개발

개발을 위해 무료 Triton 추론 서버 컨테이너에 액세스하려는 개인의 경우.

경험

단계별 지침과 예제가 포함된 NVIDIA 호스팅 인프라 및 가이드 실습 랩에 액세스하십시오. NVIDIA LaunchPad에서 무료로 사용할 수 있습니다.

배포

기존 인프라를 사용하여 90일 동안 프로덕션 환경에서 NVIDIA AI Enterprise를 무료로 사용해 볼 수 있는 무료 라이선스를 받으십시오.

활용 사례

Triton 사용 방법

업계 리더가 Triton 추론 서버를 통해 혁신을 주도하는 방법을 알아보십시오.

Unify 추론 서버

Triton 추론 서버를 사용하면 조직이 프레임워크별 추론 서버를 단일 플랫폼으로 통합할 수 있습니다. 각 AI 프레임워크에 대해 별도의 서버를 배포하고 관리하는 대신, 단일 통합 서버로 작동하여 추론 서비스 비용을 절감합니다. Triton 추론 서버는 PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX, OpenVINO를 포함한 모든 주요 AI 프레임워크를 지원합니다.

보류 상태

고객 사례

업계 리더들이 Triton을 통해 모델 배포를 개선하는 방법 알아보기

T-Mobile 고객 사례
Snapchat

AI를 통한 의류 쇼핑 경험의 향상

Snapchat이 Triton을 사용하여 의류 쇼핑 경험과 이모티콘 인식 광학 문자 인지 기능을 개선하여 어떻게 규모를 확장하고, 비용을 절감하며, 생산 시간을 단축했는지 알아보십시오.

RingCentral 고객 사례
Docusign

NVIDIA의 추론 플랫폼을 통한 계약 관리 가속화

Docusign이 Triton과 Azure를 사용하여 계약 정보를 파악하고, 계약 데이터를 인사이트로 전환하며, 생산성을 높이는 방법을 살펴보십시오.

Tarteel.ai 고객 사례
Oracle Cloud

NVIDIA Triton, Oracle Cloud에서 추론 속도 향상

Oracle Cloud Infrastructure의 컴퓨터 비전 및 데이터 사이언스 서비스가 NVIDIA Triton 추론 서버를 통해 AI 예측 속도를 향상시키는 방법을 알아보십시오.

채택 업체

모든 산업 분야의 선도적인 도입

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

리소스

NVIDIA Triton 최신 리소스

Triton 뉴스

최신 뉴스 받기

Triton 추론 서버에 대한 최신 추론 업데이트 및 발표에 대해 읽어보십시오.

Triton 기술 블로그

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보십시오.

Triton 백서

더 자세히 알아보기

생성형 AI, LLM, 추천 시스템, 컴퓨터 비전 등에 대한 추론을 위한 AI 모델을 배포, 실행 및 확장하기 위한 팁과 모범 사례를 확인할 수 있습니다.

다음 단계

시작할 준비가 되셨습니까?

올바른 도구와 기술을 사용하여 완전히 사용자 정의 가능한 다국어 음성 및 번역 AI 애플리케이션을 구축하고 배포하십시오.

장식

개발자용

최신 설명서, 튜토리얼, 기술 블로그 등의 NVIDIA Riva를 사용하여 개발을 시작하는 데 필요한 모든 것을 살펴보십시오.

장식

연락하기

NVIDIA 제품 전문가와 상담하여 NVIDIA AI Enterprise의 보안, API 안정성 및 지원을 통해 파일럿에서 프로덕션 환경으로 전환할 수 있습니다.

Select Location
Middle East