Inferenza

NVIDIA Triton Inference Server

Distribuisci, esegui e scala l'IA per qualsiasi applicazione su qualsiasi piattaforma.

Inferenza per ogni carico di lavoro IA

Esegui l'inferenza su modelli di machine learning o di deep learning addestrati partendo da qualsiasi framework su qualsiasi processore, GPU, CPU o altro, con NVIDIA Tritonโ„ข Inference Server. Incluso nella piattaforma NVIDIA AI e disponibile con NVIDIA AI Enterprise, Triton Inference Server รจ un software open source che standardizza la distribuzione e l'esecuzione dei modelli IA su ogni carico di lavoro.

Distribuzione, ottimizzazione e benchmark di LLM

Istruzioni dettagliate per servire modelli linguistici di grandi dimensioni (LLM) in modo efficiente con Triton Inference Server.

Vantaggi di Triton Inference Server

Supports All Training and Inference Frameworks

Supporta tutti i framework di training e inferenza

Distribuisci modelli IA su uno dei principali framework con Triton Inference Server, inclusi TensorFlow, PyTorch, Python, ONNX, NVIDIAยฎ TensorRTโ„ข, RAPIDSโ„ข cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ e non solo.

High-Performance Inference on Any Platform

Inferenza ad alte prestazioni su qualsiasi piattaforma

Massimizza il throughput e l'utilizzo con batch dinamici, esecuzione simultanea, configurazione ottimizzata e streaming di audio e video. Triton Inference Server supporta tutte le GPU NVIDIA, le CPU x86 e Arm e AWS Inferentia.

Open Source and Designed for DevOps and MLOps

Open source e progettato per DevOps e MLOps

Integra Triton Inference Server nelle soluzioni DevOps e MLOps come Kubernetes per la scalabilitร  e Prometheus per il monitoraggio. รˆ possibile utilizzarlo anche in tutte le principali piattaforme IA e MLOps su cloud e in locale.

Enterprise-Grade Security and API Stability

Sicurezza di livello enterprise, gestibilitร  e stabilitร  delle API

NVIDIA AI Enterprise, con NVIDIA Triton Inference Server, รจ una piattaforma software IA sicura e pronta per la produzione, progettata per accelerare il time-to-value con supporto, sicurezza e stabilitร  delle API.

Esplora le funzionalitร  e gli strumenti di NVIDIA Triton Inference Server

Supports All Training and Inference Frameworks

Modelli linguistici di grandi dimensioni

Triton offre bassa latenza ed elevata produttivitร  per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Supporta TensorRT-LLM, una libreria open source per la definizione, l'ottimizzazione e l'esecuzione di LLM per l'inferenza in produzione.

High-Performance Inference on Any Platform

Insiemi di modelli

Triton Model Ensembles consente di eseguire carichi di lavoro IA con piรน modelli, pipeline e fasi di pre e post-elaborazione. Consente di eseguire diverse parti dell'insieme su CPU o GPU e supporta l'uso di piรน framework all'interno dell'insieme.

Open Source and Designed for DevOps and MLOps

NVIDIA PyTriton

PyTriton consente agli sviluppatori Python di introdurre Triton con una singola riga di codice e di utilizzarlo per elaborare modelli, semplici funzioni di elaborazione o interi flussi di inferenza, per accelerare la creazione di prototipi e il test.

Enterprise-Grade Security and API Stability

NVIDIA Triton Model Analyzer

Model Analyzer riduce i tempi necessari per trovare la configurazione ottimale di distribuzione del modello, ad esempio dimensioni batch, precisione e istanze di esecuzione simultanee. Aiuta a selezionare la configurazione ottimale per soddisfare i requisiti di latenza, produttivitร  e memoria delle applicazioni.

Principali clienti in tutti i settori

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Inizia con NVIDIA Triton

Usa gli strumenti giusti per distribuire, eseguire e scalare l'IA per qualsiasi applicazione su qualsiasi piattaforma.

Inizia a sviluppare con codice o container

Per gli interessati all'accesso al codice open-source di Triton e ai container per lo sviluppo, sono disponibili due opzioni per iniziare a costo zero:

Usa codice open-source
Accedi al software open-source su GitHub con esempi completi.

Scarica un container
Accedi ai container Triton Inference Server basati su Linux per sistemi x86 e Armยฎ su NVIDIA NGCโ„ข.

Try Before You Buy

For enterprises looking to try Triton before purchasing NVIDIA AI Enterprise for production, there are two options to get started for free:

Senza infrastruttura
Per chi non dispone di un'infrastruttura preesistente, NVIDIA offre laboratori pratici gratuiti tramite NVIDIA LaunchPad.

Con infrastruttura
Per coloro che giร  dispongono di un'infrastruttura, NVIDIA offre una licenza di prova gratuita di NVIDIA AI Enterprise valida 90 giorni.

Risorse

I 5 modi in cui Triton semplifica l'inferenza

NVIDIA Triton Inference Server semplifica la distribuzione di modelli IA su larga scala in produzione, consentendo ai team di distribuire modelli IA addestrati da qualsiasi framework, dallo storage locale o dalla piattaforma cloud su qualsiasi infrastruttura basata su GPU o CPU. 

Distribuisci la pipeline Stable Diffusion di HuggingFace con Triton

Questo video mostra la distribuzione della pipeline Stable Diffusion tramite libreria di diffusione HuggingFace. Utilizziamo Triton Inference Server per distribuire ed eseguire la pipeline.

Inizia con NVIDIA Triton Inference Server

Triton Inference Server รจ una soluzione di inferenza open source che standardizza la distribuzione dei modelli e consente un'IA veloce e scalabile in produzione. Date le sue numerose funzionalitร , viene spontaneo chiedersi da dove iniziare! Guarda per scoprirlo.

Select Location
Middle East