Sanità e bioscienze

Deloitte costruisce pipeline per la scoperta di farmaci mediante l’IA generativa in pochi clic

Obiettivo

NVIDIA DGXTM Cloud su Oracle Cloud Infrastructure (OCI) consente a Deloitte di accelerare la scoperta di nuovi farmaci nella sua soluzione Quartz Atlas AI mediante l’IA generativa. Utilizza i grafici di conoscenza basati su LLM (modelli linguistici di grandi dimensioni), pipeline scientifiche con NVIDIA BioNeMo™, modelli personalizzati e addestra persino i propri CLM (modelli linguistici per la chimica) e PLM (modelli linguistici per le proteine) prima di implementarli su larga scala con i microservizi di inferenza NVIDIA NIM.

Cliente

Deloitte Consulting LLP

Scenario di utilizzo

IA generativa / LLM

Prodotti

NVIDIA DGX Cloud
NVIDIA BioNeMo
NVIDIA AI Enterprise
NVIDIA NIM

Accelerare le innovazioni mediche attraverso l'innovazione IA

In qualità del suo ruolo centrale di ricerca del principale fornitore di servizi di consulenza al mondo1, il Centro per la ricerca integrata di Deloitte si dedica all'esplorazione di opportunità di trasformazione nei vari settori. Con una forte enfasi sulla sanità, il team di ricerca ha deciso di sfruttare il potenziale dell'IA nell'accelerare il processo di scoperta di farmaci. La scoperta di farmaci è un processo lungo e costoso, che richiede oltre 10-15 anni e costa, in media, oltre 1-2 miliardi di dollari per ogni nuovo farmaco in attesa di approvazione per l'uso clinico. Questi costi sono accompagnati da un tasso di fallimento del 90 percento2 . Alla luce di ciò, il team di Deloitte ha riconosciuto la necessità di modelli preclinici avanzati, una rigorosa convalida degli obiettivi e strategie decisionali migliori prima di intraprendere gli studi clinici, con l'obiettivo di ridurre significativamente il tasso di fallimento dei test, migliorando in definitiva il percorso di sviluppo dei farmaci.

1 Deloitte. Deloitte è stato nominato leader mondiale nel settore dei servizi di consulenza per ricavi nel report di Gartner® Market Share Report. Luglio 2023.

2 NIH National Library of Medicine. Perché il 90% dello sviluppo di farmaci clinici fallisce e come migliorarlo? Luglio 2022.

Quartz Atlas AI rappresenta visivamente le connessioni tra la proteina allergena Bet-v-1 della betulla e le entità associate. Queste connessioni provengono sia da esperimenti wet-lab che da collegamenti generati da LLM provenienti da PLM o CLM. L'integrazione dei dati sperimentali con i modelli del mondo appresi dai PLM e dai CLM arricchisce la comprensione degli scienziati fornendo un contesto multimodale.

Scoprire insight da vasti set di dati multimodali e multi-dominio

L'avanzamento di un farmaco candidato alla fase I di sperimentazione clinica è una pietra miliare significativa per le aziende farmaceutiche. Tuttavia, nove candidati su 10 falliscono durante le fasi successive, tra cui le sperimentazioni di fase I, II e III, riflettendo le sfide della scoperta di farmaci. Questa complessa pipeline inizia con l'identificazione di obiettivi correlati alla malattia, lo screening dei composti in base all'efficacia, l'ottimizzazione dei composti principali per la sicurezza e l'efficacia, lo svolgimento di test preclinici e l'avanzamento dei candidati di successo attraverso gli studi clinici. L'integrazione dei dati in questo processo è una sfida importante, dall'integrazione di diverse fonti di dati biologici nell'identificazione dell'obiettivo all'analisi di enormi set di dati nello screening. Riconoscendo l'importanza dell'integrazione dei dati nella scoperta di farmaci basata sull'IA, Deloitte ha cercato di utilizzare l'IA generativa per semplificare il processo, mirando a risparmiare tempo e costi.

“Come ricercatori, spesso ci occupiamo di dati multimodali, da testo a grafici e immagini, abbracciando vari domini scientifici. Leggiamo diversi brevetti e setacciamo documenti sulle ricerche per trovare informazioni sugli anticorpi e comprendere le relazioni tra molecole”, ha dichiarato Dan Ferrante, leader IA per l’innovazione e la ricerca e sviluppo presso Deloitte Consulting LLP. “Volevamo armonizzare questi dati multimodali frammentati provenienti da decine di set di dati open source, tra cui versioni di archivi come PubMed, il set di dati Uniprot per le proteine, set di dati di anticorpi, set di dati di piccole molecole, ecc. Queste risorse svolgono un ruolo crucialeal fine di prendere decisioni quotidiane riguardanti la biologia e le piccole molecole. La sfida non era solo quella di inserire questi grandi volumi di dati in modelli avanzati di deep learning, ma anche di addestrarli su modelli linguistici di grandi dimensioni personalizzati per proteine e chemoinformatica, al fine di analizzare e apprendere modelli per previsioni accurate. Questa ricerca richiedeva un'infrastruttura di calcolo IA solida e uno stack software altamente ottimizzato."

 
  • L'esecuzione di esperimenti su DGX Cloud ha aumentato la produttività degli sviluppatori del 50%, mentre la semplificazione dell'addestramento multi-nodo ha consentito di risparmiare 7-10 mesi di tempo per la configurazione.
  • Con BioNeMo di NVIDIA AI Enterprise e DGX Cloud, il lavoro di assemblaggio di una pipeline che una volta richiedeva 4-6 settimane può ora essere realizzato con pochi clic, consentendo ai ricercatori di immergersi direttamente nei progetti.

Quartz Atlas AI mostra un grafico di conoscenza interattivo che fornisce livelli profondi di arricchimento semantico abilitato dalla GenAI (LLM, pLM, cLM, ecc.) sui dati multimodali attraverso connessioni e relazioni tra i punti dati.

Sperimentazione rapida grazie a una piattaforma scalabile e modelli di IA generativa personalizzabili

La previsione della struttura proteica mira ad anticipare come una proteina si piegherà nella sua forma naturale, il che è cruciale per comprendere la sua funzione nel corpo e identificare potenziali bersagli per le terapie farmacologiche. Deloitte ha sviluppato Quartz Atlas AI, un acceleratore IA per la scoperta di farmaci che analizza le sequenze di amminoacidi (i mattoni delle proteine) per determinare il miglior metodo di piegatura, che può essere fornito da un modello linguistico proteico o da un metodo per lo stile di piegatura . Questo processo è in grado di generare rapidamente strutture 3D e predire come i farmaci possono legarsi a parti specifiche della proteina. Un modello di IA generativa a valle raffina ulteriormente la struttura della proteina o della molecola per individuare le regioni al suo interno con la maggiore porbabilità di interagire con i farmaci (sovrapposizione di una mappa termica di hotspot che possono essere trattati con farmaci), contribuendo al lavoro di sviluppo di farmaci.

“Per riunire dati e pipeline scientifiche, abbiamo combinato i microservizi BioNeMo di NVIDIA per la previsione ottimizzata delle strutture e i modelli di IA generativa proprietari di Deloitte, addestrati con DGX Cloud su Oracle Cloud Infrastructure”, ha affermato Ferrante. “Abbiamo creato un solido grafico di conoscenza basato sull’IA generativa con Atlas AI, caricando oltre una dozzina di set di dati, pari a 12 milioni di nodi e 97 milioni di link a edge di connessione, per un totale di 5 terabyte di volume grezzo, ricercabile in pochi secondi. Siamo in grado di alimentare questa grande quantità di dati multimodali nei nostri modelli, mappare lo spazio della soluzione, analizzare i pattern e fare previsioni. La possibilità di addestrare su set di dati estesi e scalare in modo efficiente è stata resa possibile dall'uso di DGX Cloud e dalla sua capacità di rendere facili i lavori multi-nodo. DGX Cloud su OCI ci ha fornito l'ultima architettura NVIDIA e il tessuto a bassa latenza che ha consentito la scalabilità del carico di lavoro su cluster interconnessi ottimizzati per prestazioni di picco sui carichi di lavoro più esigenti."

Deloitte utilizza i modelli NVIDIA BioNeMo, disponibili come microservizi NVIDIA NIM, tra cui AlphaFold2, OpenFold e ESMFold per la previsione della struttura proteica, insieme a MegaMolBART e MolMIM per la generazione di molecole. Mappando queste molecole nello spazio della soluzione, può trovare facilmente molecole simili con proprietà corrispondenti, come tossicità o solubilità. Questo processo meticoloso è fondamentale nella scoperta di farmaci, facilitando la selezione efficiente di potenziali candidati, la previsione accurata di sicurezza ed efficacia e l'esplorazione di diversi spazi chimici. Per ottenere ulteriori informazioni, Deloitte ha messo a punto un modello ESM2 da 15 miliardi di parametri per la previsione delle proprietà delle proteine su DGX Cloud, utilizzato da un modello a valle per generare nuove sequenze proteiche con le proprietà specifiche desiderate.

NVIDIA BioNeMo Framework ottimizza l'addestramento per le proteine

Il framework NVIDIA BioNeMo offre architetture di modelli e strumenti ottimizzati per l'addestramento di LLM per proteine e piccole molecole.

Un aumento della produttività degli sviluppatori, insieme a dimensioni e scala del modello senza limiti

Ferrante ha commentato: “Nel campo della biologia, molti professionisti non vogliono occuparsi della complessità dell’infrastruttura e della scrittura del codice. Tuttavia, sfruttare gli strumenti e il software all’interno di DGX Cloud ha semplificato questo processo. Con pochi clic, i nostri sviluppatori possono selezionare un container e accedere a un notebook, eliminando la necessità del Secure Shell direttamente nei nodi. Consentendoci di eseguire facilmente più esperimenti rispetto alla nostra soluzione precedente con una grande visibilità sui lavori in coda, DGX Cloud ha aumentato la produttività degli sviluppatori del 50%.”

“Grazie alla scalabilità dei nostri set di dati, l'addestramento multi-nodo era cruciale. In precedenza, orchestrare l'addestramento multi-nodo era un processo manuale e non l’avevamo mai provato su una piattaforma cloud. Con DGX Cloud, l'addestramento multi-nodo ora è semplice come fare clic su un pulsante, risparmiandoci da sette a dieci mesi di lavoro sull’infrastruttura e sugli strumenti, tra cui la configurazione hardware, la creazione di container e la distribuzione del carico di lavoro. Di conseguenza, i nostri modelli non sono più limitati dalla dimensione o dalla scala dei dati e le nostre sessioni di addestramento sono state ridotte da quattro settimane a sole otto ore”.

“In precedenza, la costruzione della pipeline per la scoperta di farmaci era un procedimento laborioso, per cui era necessario un meticoloso reverse engineering e debug di ogni riga di codice, monitorando le modifiche e gestendo versioni multiple. In passato ci volevano dalle quattro alle sei settimane per assemblare una pipeline, ma ora, con pochi clic, possiamo immergerci direttamente nei progetti. Grazie alla scalabilità dei modelli di BioNeMo e alla facilità di distribuzione tramite NVIDIA NIM, le attività di ricerca e sviluppo sono diventate molto più fluide. L'ottimizzazione dei modelli di base di BioNeMo su DGX Cloud e l'implementazione di un loop di inferenza hanno ulteriormente rafforzato la robustezza della pipeline”, ha affermato Ferrante.

“Con Atlas AI, Deloitte può fornire agli utenti pipeline scientifiche per ottenere informazioni utili combinando più modelli insieme. Ad esempio, invece di piegare una molecola o calcolare una proprietà, può fornire un report completo contenente strutture piegate o proprietà, fornendo agli utenti tutte le informazioni necessarie per prendere decisioni informate sulla fattibilità di una soluzione. Può anche mostrare le relazioni tra strutture proteiche e le loro connessioni, aiutando ulteriormente nella comprensione delle interazioni molecolari complesse.”

Oltre a una piattaforma potente, il team a servizio completo di esperti di NVIDIA Enterprise Services è stato prezioso. “Abbiamo beneficiato del supporto end-to-end di NVIDIA, che va dall'assistenza alla piattaforma per la configurazione dell'addestramento multi-nodo e gli aggiornamenti dei container fino alla guida a livello di applicazioni, sfruttando la loro vasta esperienza nei framework e modelli sanitari per ottimizzare i nostri modelli IA”, ha affermato Ferrante.

“Consentendoci di eseguire facilmente più esperimenti in contemporanea rispetto alla nostra soluzione precedente e di avere una visibilità ottimale sui lavori in coda, DGX Cloud ha aumentato la produttività degli sviluppatori del 50%.”

Dan Ferrante
AI Leader per l'innovazione e la ricerca e sviluppo Deloitte Consulting LLP

“Con DGX Cloud, l'addestramento multi-nodo è ora facile come fare clic su un pulsante, risparmiandoci da sette a 10 mesi di lavoro su infrastruttura e strumenti... La durata dell'addestramento è stato ridotto da quattro settimane a sole otto ore.”

Dan Ferrante
AI Leader per l'innovazione e la ricerca e sviluppo Deloitte Consulting LLP

Guardando in avanti

“Una delle applicazioni dirette di Atlas AI è stata la capacità di utilizzare l’IA per prendere i farmaci approvati dall'FDA e progettare in silico una versione migliore e brevettabile della molecola. Ora siamo in grado di caricare tutti i farmaci brevettati e tutti quelli approvati dall'FDA. Il nostro modello addestrato ci consente di individuare potenziali composti di partenza con un legame target. Trovare farmaci attuabili è estremamente difficile a causa del vasto numero di composti potenziali e della necessità di proprietà specifiche. Sembra quasi di risolvere un problema di ottimizzazione complesso. MolMIM, parte di NVIDIA BioNeMo e disponibile come microservizio NIM, aiuta i nostri ricercatori a trovare le molecole con le proprietà ideali per lo sviluppo di farmaci massimizzando una funzione di punteggio definita dall'utente. Utilizzando MolMIM, generiamo nuovi composti, ottimizzati per vari aspetti molecolari come il legame migliorato, la permeabilità intestinale, la solubilità e l'emivita prolungata", ha aggiunto Ferrante.

Deloitte prevede di migliorare ulteriormente Atlas AI integrandola in varie applicazioni nel campo della sanità e delle scienze della vita, come la medicina di precisione e gli insight sulla voce del paziente, al fine di migliorare il coinvolgimento dei pazienti e ottimizzare i risultati medici. “Sfruttando BioNeMo e DGX Cloud, possiamo stabilire facilmente una pipeline di addestramento standardizzata per diversi domini, consentendoci di ottimizzarla senza problemi per specifiche classi proteiche o previsioni della struttura degli anticorpi,” ha detto Ferrante.

MolMIM esegue la generazione controllata per trovare le molecole con le proprietà giuste.

“Sfruttando BioNeMo e DGX Cloud, possiamo stabilire facilmente una pipeline di addestramento standardizzata per diversi domini, consentendoci di ottimizzarla senza problemi per specifiche classi proteiche o previsioni della struttura degli anticorpi”.

Dan Ferrante
AI Leader per l'innovazione e la ricerca e sviluppo Deloitte Consulting LLP

Risultati

  • Miglioramento della produttività degli sviluppatori del 50%
  • Risparmio di 7-10 mesi eliminando la configurazione manuale per l'addestramento multi-nodo
  • Riduzione dell'addestramento da quattro settimane a otto ore
  • Riduzione del tempo di sviluppo della pipeline di scoperta di farmaci da 4-6 settimane a pochi clic

Il punto di partenza più veloce per iniziare a creare applicazioni di IA generativa è su DGX Cloud, una piattaforma IA per sviluppatori.