Baseten offre un'infrastruttura di inferenza ottimizzata, basata sull'hardware e sul software NVIDIA, per aiutare ad affrontare le sfide legate alla scalabilità della distribuzione, all'efficienza dei costi e alla competenza.
Con funzionalità di scalabilità automatica, Baseten consente ai clienti di implementare i propri modelli per regolare dinamicamente il numero di repliche in base al traffico dei consumatori e agli accordi di livello di servizio, garantendo che la capacità soddisfi la domanda senza intervento manuale. Ciò aiuta a ottimizzare i costi, poiché l'infrastruttura di Baseten può facilmente ampliarsi o ridursi a seconda del numero di richieste in arrivo al modello. Non solo non costa nulla ai clienti quando non c'è attività, ma una volta che arriva una richiesta, l'infrastruttura di Baseten, basata su GPU NVIDIA su istanze AWS EC2 basate su GPU NVIDIA A100 Tensor Core, impiega solo dai 5 ai 10 secondi per attivare e far funzionare il modello. Per un avvio a freddo, che in precedenza richiedeva fino a cinque minuti, si tratta di un'accelerazione incredibile, una velocità da 30 a 60 volte maggiore. I clienti possono scegliere tra una varietà di GPU NVIDIA disponibili su Baseten anche per accelerare l'inferenza dei loro modelli, ad esempio, ma non solo, le GPU NVIDIA A100, A10G, T4 e V100 Tensor Core.
Oltre all'hardware NVIDIA, Baseten sfrutta il software NVIDIA ottimizzato. Avvalendosi della funzionalità TensorRT-LLM di parallelismo dei tensori servita su AWS, Baseten ha migliorato di due volte le prestazioni di inferenza per la distribuzione LLM di un cliente attraverso Truss, il suo framework open-source. Truss è una libreria open-source di pacchetti e distribuzioni, che consente agli utenti di distribuire i modelli in produzione con facilità.
TensorRT-LLM è inclusa in NVIDIA AI Enterprise, che fornisce una piattaforma software end-to-end sicura e di livello produttivo per le imprese che creano e distribuiscono software IA accelerato.
L'approccio full-stack dell'inferenza con IA di NVIDIA svolge un ruolo cruciale nel soddisfare le elevate esigenze delle applicazioni in tempo reale dei clienti di Baseten. Con le GPU NVIDIA A100 e le ottimizzazioni TensorRT-LLM, l'infrastruttura sottostante consente agli sviluppatori di ottenere vantaggi in termini di prestazioni e risparmi sui costi.
Scopri di più su Baseten guardando una breve demo del suo prodotto.