Inferenza

NVIDIA Triton Inference Server

Distribuisci, esegui e scala l'IA per qualsiasi applicazione su qualsiasi piattaforma.

Inferenza per ogni carico di lavoro IA

Esegui l'inferenza su modelli di machine learning o di deep learning addestrati partendo da qualsiasi framework su qualsiasi processore, GPU, CPU o altro, con NVIDIA Triton™ Inference Server. Incluso nella piattaforma NVIDIA AI e disponibile con NVIDIA AI Enterprise, Triton Inference Server è un software open source che standardizza la distribuzione e l'esecuzione dei modelli IA su ogni carico di lavoro.

Distribuzione, ottimizzazione e benchmark di LLM

Istruzioni dettagliate per servire modelli linguistici di grandi dimensioni (LLM) in modo efficiente con Triton Inference Server.

Vantaggi di Triton Inference Server

Supporta tutti i framework di training e inferenza

Distribuisci modelli IA su uno dei principali framework con Triton Inference Server, inclusi TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ e non solo.

Inferenza ad alte prestazioni su qualsiasi piattaforma

Massimizza il throughput e l'utilizzo con batch dinamici, esecuzione simultanea, configurazione ottimizzata e streaming di audio e video. Triton Inference Server supporta tutte le GPU NVIDIA, le CPU x86 e Arm e AWS Inferentia.

Open source e progettato per DevOps e MLOps

Integra Triton Inference Server nelle soluzioni DevOps e MLOps come Kubernetes per la scalabilità e Prometheus per il monitoraggio. È possibile utilizzarlo anche in tutte le principali piattaforme IA e MLOps su cloud e in locale.

Sicurezza di livello enterprise, gestibilità e stabilità delle API

NVIDIA AI Enterprise, con NVIDIA Triton Inference Server, è una piattaforma software IA sicura e pronta per la produzione, progettata per accelerare il time-to-value con supporto, sicurezza e stabilità delle API.

Esplora le funzionalità e gli strumenti di NVIDIA Triton Inference Server

Modelli linguistici di grandi dimensioni

Triton offre bassa latenza ed elevata produttività per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Supporta TensorRT-LLM, una libreria open source per la definizione, l'ottimizzazione e l'esecuzione di LLM per l'inferenza in produzione.

Insiemi di modelli

Triton Model Ensembles consente di eseguire carichi di lavoro IA con più modelli, pipeline e fasi di pre e post-elaborazione. Consente di eseguire diverse parti dell'insieme su CPU o GPU e supporta l'uso di più framework all'interno dell'insieme.

NVIDIA PyTriton

PyTriton consente agli sviluppatori Python di introdurre Triton con una singola riga di codice e di utilizzarlo per elaborare modelli, semplici funzioni di elaborazione o interi flussi di inferenza, per accelerare la creazione di prototipi e il test.

NVIDIA Triton Model Analyzer

Model Analyzer riduce i tempi necessari per trovare la configurazione ottimale di distribuzione del modello, ad esempio dimensioni batch, precisione e istanze di esecuzione simultanee. Aiuta a selezionare la configurazione ottimale per soddisfare i requisiti di latenza, produttività e memoria delle applicazioni.

Principali clienti in tutti i settori

Inizia con NVIDIA Triton

Usa gli strumenti giusti per distribuire, eseguire e scalare l'IA per qualsiasi applicazione su qualsiasi piattaforma.

Inizia a sviluppare con codice o container

Per gli interessati all'accesso al codice open-source di Triton e ai container per lo sviluppo, sono disponibili due opzioni per iniziare a costo zero:

Usa codice open-source
Accedi al software open-source su GitHub con esempi completi.

Scarica un container
Accedi ai container Triton Inference Server basati su Linux per sistemi x86 e Arm® su NVIDIA NGC™.

Try Before You Buy

For enterprises looking to try Triton before purchasing NVIDIA AI Enterprise for production, there are two options to get started for free:

Senza infrastruttura
Per chi non dispone di un'infrastruttura preesistente, NVIDIA offre laboratori pratici gratuiti tramite NVIDIA LaunchPad.

Con infrastruttura
Per coloro che già dispongono di un'infrastruttura, NVIDIA offre una licenza di prova gratuita di NVIDIA AI Enterprise valida 90 giorni.

Risorse

I 5 modi in cui Triton semplifica l'inferenza

NVIDIA Triton Inference Server semplifica la distribuzione di modelli IA su larga scala in produzione, consentendo ai team di distribuire modelli IA addestrati da qualsiasi framework, dallo storage locale o dalla piattaforma cloud su qualsiasi infrastruttura basata su GPU o CPU. 

Distribuisci la pipeline Stable Diffusion di HuggingFace con Triton

Questo video mostra la distribuzione della pipeline Stable Diffusion tramite libreria di diffusione HuggingFace. Utilizziamo Triton Inference Server per distribuire ed eseguire la pipeline.

Inizia con NVIDIA Triton Inference Server

Triton Inference Server è una soluzione di inferenza open source che standardizza la distribuzione dei modelli e consente un'IA veloce e scalabile in produzione. Date le sue numerose funzionalità, viene spontaneo chiedersi da dove iniziare! Guarda per scoprirlo.

Guida rapida

Non conosci Triton Inference Server e vuoi distribuire il tuo modello velocemente? Usa questa guida rapida per iniziare il tuo percorso con Triton.

Tutorial

Il primo approccio a Triton può far sorgere diverse domande. Esplora questo repository per familiarizzare con le funzionalità di Triton e trovare guide ed esempi che possono facilitare la migrazione.

NVIDIA LaunchPad

Sperimenta l'IA veloce e scalabile con NVIDIA Triton Inference Server nei laboratori pratici. Sarai in grado di ottenere subito i vantaggi dell'infrastruttura di calcolo accelerato di NVIDIA e scalare i carichi di lavoro IA.

Scopri le ultime notizie

Scopri gli ultimi aggiornamenti e annunci su Triton Inference Server.

Esplora i blog tecnici

Leggi le procedure tecniche dettagliate per iniziare con l'inferenza.

Approfondisci il sistema

Ottieni consigli e best practice per la distribuzione, l'esecuzione e la scalabilità di modelli IA per l'inferenza per IA generativa, LLM, sistemi recommender, computer vision e altro ancora.

Distribuzione, ottimizzazione e benchmark di LLM

Scopri come servire LLM in modo efficiente con Triton Inference Server con istruzioni dettagliate. Parleremo di come distribuire facilmente un LLM su più backend e di confrontare le loro prestazioni, nonché di come calibrare le configurazioni di distribuzione per prestazioni ottimali.

Sposta i casi d'uso dell'IA aziendale dallo sviluppo alla produzione

Scopri cos'è l'inferenza con IA, come si inserisce nella strategia di distribuzione IA della tua azienda, le sfide chiave nella distribuzione di casi d'uso IA di livello aziendale, perché è necessaria una soluzione di inferenza con IA full-stack per affrontare queste sfide, i componenti principali di uno stack completo e come distribuire la prima soluzione di inferenza con IA.

Sfrutta la potenza delle soluzioni di inferenza IA cloud-ready

Scopri come la piattaforma di inferenza NVIDIA AI si integra perfettamente con i principali fornitori di servizi cloud, semplificando la distribuzione e accelerando i casi d'uso di IA basati su LLM.

Oracle Cloud

NVIDIA Triton accelera l'inferenza su Oracle Cloud

Scopri come i servizi di computer vision e scienza dei dati di Oracle Cloud Infrastructure migliorano la velocità delle previsioni IA con NVIDIA Triton Inference Server.

ControlExpert

Rivoluzionare la gestione dei sinistri auto

Scopri come ControlExpert si è affidata a NVIDIA AI per sviluppare una soluzione di gestione dei sinistri completa che consente ai clienti di ricevere assistenza 24 ore su 24.

Wealthsimple

Accelerare l'inferenza e l'erogazione dei modelli di machine learning

Scopri come Wealthsimple ha utilizzato la piattaforma di inferenza IA di NVIDIA per ridurre la durata della distribuzione dei modelli da diversi mesi a soli 15 minuti.

Forum online su Triton

Esplora la community online di NVIDIA Triton Inference Server dove puoi consultare le domande e risposte, le best practice, interagire con altri sviluppatori e segnalare bug.

Programma per sviluppatori NVIDIA

Entra in contatto con milioni di sviluppatori come te e accedi a centinaia di container, modelli ed SDK accelerati da GPU, tutti gli strumenti necessari per sviluppare app di successo con la tecnologia NVIDIA, tramite il programma per sviluppatori NVIDIA.

Accelera la tua startup

NVIDIA Inception è un programma gratuito per startup all'avanguardia che offre l'accesso a supporto per lancio sul mercato, competenze tecniche, formazione e opportunità di finanziamento.