Servizi cloud

Infrastruttura di inferenza IA semplificata nel cloud

Obiettivo

Baseten sfrutta le GPU NVIDIA e NVIDIA® TensorRTTM-LLM per fornire un'infrastruttura di apprendimento automatico ad alte prestazioni, scalabile e conveniente.

Cliente

Baseten

Partner

Baseten

Scenario di utilizzo

IA generativa / LLM

Prodotti

NVIDIA TensorRT-LLM
GPU NVIDIA A100 Tensor Core
GPU NVIDIA A10 Tensor Core

Infrastruttura di inferenza IA di Baseten

La missione di Baseten è semplice: fornire un'infrastruttura di machine learning (ML) che funzioni.

Con Baseten, le organizzazioni hanno il necessario per distribuire e servire modelli di ML in modo performante, scalabile ed economico per le applicazioni in tempo reale. I clienti rivolgersi a Baseten con i propri modelli o scegliere tra una varietà di modelli pre-addestrati e distribuirli in produzione, serviti sul framework open-source Truss di Baseten e gestiti su una dashboard di facile utilizzo.

Sfruttando le istanze accelerate da GPU NVIDIA su AWS, come le istanze Amazon EC2 P4d basate su GPU NVIDIA A100 Tensor Core e il software NVIDIA ottimizzato, come NVIDIA TensorRT-LLM, Baseten può svolgere la propria missione dal cloud.

Image courtesy of Baseten

Sfide legate alla distribuzione dell'inferenza

Baseten consente ai suoi clienti di affrontare diverse sfide legate alla distribuzione dei modelli, in particolare in materia di scalabilità, efficienza dei costi e competenza.

Scalabilità: la gestione dell'infrastruttura IA che serve vari livelli di domanda, da sporadiche richieste individuali a migliaia di richieste ad alto traffico, è una grande sfida. L'infrastruttura sottostante deve essere sia dinamica che reattiva, adattandosi alle richieste in tempo reale senza causare ritardi o necessità di supervisione manuale

Efficienza dei costi: massimizzare l'utilizzo delle GPU NVIDIA sottostanti è fondamentale. L'infrastruttura di inferenza IA deve fornire prestazioni elevate senza generare spese inutili, sia con un traffico elevato che ridotto.

Competenza: la distribuzione di modelli ML richiede competenze specializzate e una profonda comprensione dell'infrastruttura sottostante. Questa competenza può essere carente e richiedere un grosso sforzo economico; per le organizzazioni, pertanto, mantenere capacità di inferenza all'avanguardia senza effettuare un grosso investimento in personale qualificato può essere difficile.

Baseten con NVIDIA su AWS

Baseten offre un'infrastruttura di inferenza ottimizzata, basata sull'hardware e sul software NVIDIA, per aiutare ad affrontare le sfide legate alla scalabilità della distribuzione, all'efficienza dei costi e alla competenza.

Con funzionalità di scalabilità automatica, Baseten consente ai clienti di implementare i propri modelli per regolare dinamicamente il numero di repliche in base al traffico dei consumatori e agli accordi di livello di servizio, garantendo che la capacità soddisfi la domanda senza intervento manuale. Ciò aiuta a ottimizzare i costi, poiché l'infrastruttura di Baseten può facilmente ampliarsi o ridursi a seconda del numero di richieste in arrivo al modello. Non solo non costa nulla ai clienti quando non c'è attività, ma una volta che arriva una richiesta, l'infrastruttura di Baseten, basata su GPU NVIDIA su istanze AWS EC2 basate su GPU NVIDIA A100 Tensor Core, impiega solo dai 5 ai 10 secondi per attivare e far funzionare il modello. Per un avvio a freddo, che in precedenza richiedeva fino a cinque minuti, si tratta di un'accelerazione incredibile, una velocità da 30 a 60 volte maggiore. I clienti possono scegliere tra una varietà di GPU NVIDIA disponibili su Baseten anche per accelerare l'inferenza dei loro modelli, ad esempio, ma non solo, le GPU NVIDIA A100, A10G, T4 e V100 Tensor Core.

Oltre all'hardware NVIDIA, Baseten sfrutta il software NVIDIA ottimizzato. Avvalendosi della funzionalità TensorRT-LLM di parallelismo dei tensori servita su AWS, Baseten ha migliorato di due volte le prestazioni di inferenza per la distribuzione LLM di un cliente attraverso Truss, il suo framework open-source. Truss è una libreria open-source di pacchetti e distribuzioni, che consente agli utenti di distribuire i modelli in produzione con facilità.

TensorRT-LLM è inclusa in NVIDIA AI Enterprise, che fornisce una piattaforma software end-to-end sicura e di livello produttivo per le imprese che creano e distribuiscono software IA accelerato.

L'approccio full-stack dell'inferenza con IA di NVIDIA svolge un ruolo cruciale nel soddisfare le elevate esigenze delle applicazioni in tempo reale dei clienti di Baseten. Con le GPU NVIDIA A100 e le ottimizzazioni TensorRT-LLM, l'infrastruttura sottostante consente agli sviluppatori di ottenere vantaggi in termini di prestazioni e risparmi sui costi.

Scopri di più su Baseten guardando una breve demo del suo prodotto.

Programma NVIDIA Inception

Baseten è membro di NVIDIA Inception, un programma gratuito che promuove le startup che rivoluzionano l'industria grazie ai progressi tecnologici. Come vantaggio di Inception, Baseten ha ottenuto l'accesso anticipato a TensorRT-LLM, il che rappresenta una significativa opportunità per sviluppare e fornire soluzioni ad alte prestazioni.

Cos'è NVIDIA Inception?

NVIDIA Inception è un programma gratuito progettato per aiutare le startup a svilupparsi più velocemente grazie a tecnologie all'avanguardia, opportunità di connettersi con gli investitori in capitali di rischio e l'accesso alle ultime risorse tecniche di NVIDIA.

Vantaggi del programma NVIDIA Inception

A differenza degli acceleratori tradizionali, NVIDIA Inception supporta le startup in tutte le fasi del loro ciclo di vita. Lavoriamo a stretto contatto con i membri per fornire i migliori strumenti tecnici, le ultime risorse e le opportunità di connettersi con gli investitori.

Entra a far parte della rete globale di NVIDIA Inception, che conta oltre 15.000 startup tecnologiche.

Scopri di più