Inferenza
Distribuisci, esegui e scala l'IA per qualsiasi applicazione su qualsiasi piattaforma.
Video | White paper | Per sviluppatori
Esegui l'inferenza su modelli di machine learning o di deep learning addestrati partendo da qualsiasi framework su qualsiasi processore, GPU, CPU o altro, con NVIDIA Triton™ Inference Server. Incluso nella piattaforma NVIDIA AI e disponibile con NVIDIA AI Enterprise, Triton Inference Server è un software open source che standardizza la distribuzione e l'esecuzione dei modelli IA su ogni carico di lavoro.
Istruzioni dettagliate per servire modelli linguistici di grandi dimensioni (LLM) in modo efficiente con Triton Inference Server.
Distribuisci modelli IA su uno dei principali framework con Triton Inference Server, inclusi TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ e non solo.
Massimizza il throughput e l'utilizzo con batch dinamici, esecuzione simultanea, configurazione ottimizzata e streaming di audio e video. Triton Inference Server supporta tutte le GPU NVIDIA, le CPU x86 e Arm e AWS Inferentia.
Integra Triton Inference Server nelle soluzioni DevOps e MLOps come Kubernetes per la scalabilità e Prometheus per il monitoraggio. È possibile utilizzarlo anche in tutte le principali piattaforme IA e MLOps su cloud e in locale.
NVIDIA AI Enterprise, con NVIDIA Triton Inference Server, è una piattaforma software IA sicura e pronta per la produzione, progettata per accelerare il time-to-value con supporto, sicurezza e stabilità delle API.
Triton offre bassa latenza ed elevata produttività per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Supporta TensorRT-LLM, una libreria open source per la definizione, l'ottimizzazione e l'esecuzione di LLM per l'inferenza in produzione.
Triton Model Ensembles consente di eseguire carichi di lavoro IA con più modelli, pipeline e fasi di pre e post-elaborazione. Consente di eseguire diverse parti dell'insieme su CPU o GPU e supporta l'uso di più framework all'interno dell'insieme.
PyTriton consente agli sviluppatori Python di introdurre Triton con una singola riga di codice e di utilizzarlo per elaborare modelli, semplici funzioni di elaborazione o interi flussi di inferenza, per accelerare la creazione di prototipi e il test.
Model Analyzer riduce i tempi necessari per trovare la configurazione ottimale di distribuzione del modello, ad esempio dimensioni batch, precisione e istanze di esecuzione simultanee. Aiuta a selezionare la configurazione ottimale per soddisfare i requisiti di latenza, produttività e memoria delle applicazioni.
Usa gli strumenti giusti per distribuire, eseguire e scalare l'IA per qualsiasi applicazione su qualsiasi piattaforma.
Per gli interessati all'accesso al codice open-source di Triton e ai container per lo sviluppo, sono disponibili due opzioni per iniziare a costo zero:
Usa codice open-source Accedi al software open-source su GitHub con esempi completi.
Scarica un container Accedi ai container Triton Inference Server basati su Linux per sistemi x86 e Arm® su NVIDIA NGC™.
For enterprises looking to try Triton before purchasing NVIDIA AI Enterprise for production, there are two options to get started for free:
Senza infrastruttura Per chi non dispone di un'infrastruttura preesistente, NVIDIA offre laboratori pratici gratuiti tramite NVIDIA LaunchPad.
Con infrastruttura Per coloro che già dispongono di un'infrastruttura, NVIDIA offre una licenza di prova gratuita di NVIDIA AI Enterprise valida 90 giorni.
NVIDIA Triton Inference Server semplifica la distribuzione di modelli IA su larga scala in produzione, consentendo ai team di distribuire modelli IA addestrati da qualsiasi framework, dallo storage locale o dalla piattaforma cloud su qualsiasi infrastruttura basata su GPU o CPU.
Questo video mostra la distribuzione della pipeline Stable Diffusion tramite libreria di diffusione HuggingFace. Utilizziamo Triton Inference Server per distribuire ed eseguire la pipeline.
Triton Inference Server è una soluzione di inferenza open source che standardizza la distribuzione dei modelli e consente un'IA veloce e scalabile in produzione. Date le sue numerose funzionalità, viene spontaneo chiedersi da dove iniziare! Guarda per scoprirlo.
Non conosci Triton Inference Server e vuoi distribuire il tuo modello velocemente? Usa questa guida rapida per iniziare il tuo percorso con Triton.
Il primo approccio a Triton può far sorgere diverse domande. Esplora questo repository per familiarizzare con le funzionalità di Triton e trovare guide ed esempi che possono facilitare la migrazione.
Sperimenta l'IA veloce e scalabile con NVIDIA Triton Inference Server nei laboratori pratici. Sarai in grado di ottenere subito i vantaggi dell'infrastruttura di calcolo accelerato di NVIDIA e scalare i carichi di lavoro IA.
Scopri gli ultimi aggiornamenti e annunci su Triton Inference Server.
Leggi le procedure tecniche dettagliate per iniziare con l'inferenza.
Ottieni consigli e best practice per la distribuzione, l'esecuzione e la scalabilità di modelli IA per l'inferenza per IA generativa, LLM, sistemi recommender, computer vision e altro ancora.
Scopri come servire LLM in modo efficiente con Triton Inference Server con istruzioni dettagliate. Parleremo di come distribuire facilmente un LLM su più backend e di confrontare le loro prestazioni, nonché di come calibrare le configurazioni di distribuzione per prestazioni ottimali.
Scopri cos'è l'inferenza con IA, come si inserisce nella strategia di distribuzione IA della tua azienda, le sfide chiave nella distribuzione di casi d'uso IA di livello aziendale, perché è necessaria una soluzione di inferenza con IA full-stack per affrontare queste sfide, i componenti principali di uno stack completo e come distribuire la prima soluzione di inferenza con IA.
Scopri come la piattaforma di inferenza NVIDIA AI si integra perfettamente con i principali fornitori di servizi cloud, semplificando la distribuzione e accelerando i casi d'uso di IA basati su LLM.
Scopri come i servizi di computer vision e scienza dei dati di Oracle Cloud Infrastructure migliorano la velocità delle previsioni IA con NVIDIA Triton Inference Server.
Scopri come ControlExpert si è affidata a NVIDIA AI per sviluppare una soluzione di gestione dei sinistri completa che consente ai clienti di ricevere assistenza 24 ore su 24.
Scopri come Wealthsimple ha utilizzato la piattaforma di inferenza IA di NVIDIA per ridurre la durata della distribuzione dei modelli da diversi mesi a soli 15 minuti.
Esplora la community online di NVIDIA Triton Inference Server dove puoi consultare le domande e risposte, le best practice, interagire con altri sviluppatori e segnalare bug.
Entra in contatto con milioni di sviluppatori come te e accedi a centinaia di container, modelli ed SDK accelerati da GPU, tutti gli strumenti necessari per sviluppare app di successo con la tecnologia NVIDIA, tramite il programma per sviluppatori NVIDIA.
NVIDIA Inception è un programma gratuito per startup all'avanguardia che offre l'accesso a supporto per lancio sul mercato, competenze tecniche, formazione e opportunità di finanziamento.
Usa gli strumenti giusti per distribuire, eseguire e scalare l'IA per qualsiasi applicazione su qualsiasi piattaforma o esplora altre risorse per sviluppatori.
Parla con un esperto di prodotti NVIDIA per passare dal progetto pilota alla produzione con sicurezza, stabilità API e supporto con NVIDIA AI Enterprise.
Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.