Inferenza
Distribuisci, esegui e scala l'IA per qualsiasi applicazione su qualsiasi piattaforma.
Esegui l'inferenza su modelli di machine learning o di deep learning addestrati partendo da qualsiasi framework su qualsiasi processore, GPU, CPU o altro, con NVIDIA Tritonโข Inference Server. Incluso nella piattaforma NVIDIA AI e disponibile con NVIDIA AI Enterprise, Triton Inference Server รจ un software open source che standardizza la distribuzione e l'esecuzione dei modelli IA su ogni carico di lavoro.
Distribuisci modelli IA su uno dei principali framework con Triton Inference Server, inclusi TensorFlow, PyTorch, Python, ONNX, NVIDIAยฎ TensorRTโข, RAPIDSโข cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ e non solo.
Massimizza il throughput e l'utilizzo con batch dinamici, esecuzione simultanea, configurazione ottimizzata e streaming di audio e video. Triton Inference Server supporta tutte le GPU NVIDIA, le CPU x86 e Arm e AWS Inferentia.
Integra Triton Inference Server nelle soluzioni DevOps e MLOps come Kubernetes per la scalabilitร e Prometheus per il monitoraggio. ร possibile utilizzarlo anche in tutte le principali piattaforme IA e MLOps su cloud e in locale.
NVIDIA AI Enterprise, con NVIDIA Triton Inference Server, รจ una piattaforma software IA sicura e pronta per la produzione, progettata per accelerare il time-to-value con supporto, sicurezza e stabilitร delle API.
Triton offre bassa latenza ed elevata produttivitร per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Supporta TensorRT-LLM, una libreria open source per la definizione, l'ottimizzazione e l'esecuzione di LLM per l'inferenza in produzione.
Triton Model Ensembles consente di eseguire carichi di lavoro IA con piรน modelli, pipeline e fasi di pre e post-elaborazione. Consente di eseguire diverse parti dell'insieme su CPU o GPU e supporta l'uso di piรน framework all'interno dell'insieme.
PyTriton consente agli sviluppatori Python di introdurre Triton con una singola riga di codice e di utilizzarlo per elaborare modelli, semplici funzioni di elaborazione o interi flussi di inferenza, per accelerare la creazione di prototipi e il test.
Model Analyzer riduce i tempi necessari per trovare la configurazione ottimale di distribuzione del modello, ad esempio dimensioni batch, precisione e istanze di esecuzione simultanee. Aiuta a selezionare la configurazione ottimale per soddisfare i requisiti di latenza, produttivitร e memoria delle applicazioni.
Usa gli strumenti giusti per distribuire, eseguire e scalare l'IA per qualsiasi applicazione su qualsiasi piattaforma.
Per gli interessati all'accesso al codice open-source di Triton e ai container per lo sviluppo, sono disponibili due opzioni per iniziare a costo zero:
For enterprises looking to try Triton before purchasing NVIDIA AI Enterprise for production, there are two options to get started for free:
Usa gli strumenti giusti per distribuire, eseguire e scalare l'IA per qualsiasi applicazione su qualsiasi piattaforma o esplora altre risorse per sviluppatori.
Parla con un esperto di prodotti NVIDIA per passare dal progetto pilota alla produzione con sicurezza, stabilitร API e supporto con NVIDIA AI Enterprise.
Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.