Sanità e scienze della vita

Risparmio di nove anni di tempo di elaborazione con NVIDIA Parabricks

Cellule tumorali polmonari. Anne Weston, Francis Crick Institute

Obiettivo

Il Francis Crick Institute è un leader nella ricerca biomedica all'avanguardia, che lavora instancabilmente per migliorare la ricerca sulla salute umana e sulle malattie, incluso il cancro ai polmoni. Il cancro più mortale in tutto il mondo, con oltre 1,8 milioni di morti nel 2020, il cancro del polmone sottolinea la necessità critica di capire il processo di metastasi. Le diagnosi tardive non fanno che contribuire a questo problema. Queste sfide hanno gettato le basi e servito da catalizzatore per la ricerca critica finanziata da Cancer Research UK, tra cui gli studi TRACERx e TRACERx EVO.

Cliente

Il Francis Crick Institute

Scenario di utilizzo

Strumenti e tecniche di computing accelerato

Prodotti

NVIDIA Parabricks
NVIDIA A100
NVIDIA L40

Panoramica dello studio TRACERx

Lo studio TRACERx—TRAcking Cancer Evolution through therapy (Rx)—ha lo scopo di comprendere l’evoluzione del tumore nel carcinoma polmonare non a piccole cellule. Esso esamina la diagnosi attraverso la resezione chirurgica

per curare o prevenire la recidività della malattia. Lo studio consiste nella resezione chirurgica del tumore primario e dei linfonodi vicini dei partecipanti che si trovano in specifiche fasi del cancro polmonare. Da ciascun tumore rimosso vengono prelevati più campioni che vengono inviati per il sequenziamento dell’esoma intero con sequenziamento dell’RNA accoppiato. Microarray tissutali e campionamento del ctDNA possono essere condotti e sequenziati, seguiti dall’analisi del numero di copie genomiche e dalla ricostruzione

degli alberi filogenetici per caratterizzare l’evoluzione del cancro. Infine, le lesioni metastatiche vengono sequenziate quando disponibili. Il TRACERx 421 rappresenta il punto a metà dello studio totale.

  • Dei 421 pazienti,
  • ci sono 233
  • uomini e 188 donne con

vari rapporti col fumo, tra cui: persone che non hanno mai fumato: 30 ex fumatori: 211 attuali o recenti fumatori: 180 Fattori come età, numero di pacchetti all'anno, fase della malattia e se ci sono stati tentativi di cura sono stati presi in considerazione. Le informazioni di sequenziamento sono poi esaminate da una serie di processi complessi, risultando in un riassunto dettagliato di eterogeneità mutazionale ed eterogeneità di numeri di copia in tutte le regioni tumorali. L'attenzione alla eterogeneità genomica è importante in quanto è stata identificata come segno di una buona prognosi nel carcinoma polmonare non a piccole cellule, secondo diversi studi. Nello studio 421 c'è un'alta aberrazione di numero di copia somatica associata a una ridotta recidiva libera da malattia.

TRACERx EVO Research: un passaggio al sequenziamento dell'intero genoma

TRACERx EVO è uno studio prospettico e osservazionale che si basa sul lavoro TRACERx evidenziato nella coorte 421. La differenza più notevole nello studio TRACERx EVO è il passaggio al sequenziamento dell’intero genoma invece del sequenziamento dell’intero esoma.

Mark S. Hill, Principal Research Fellow presso il Francis Crick Institute, spiega: “Il sequenziamento dell’intero genoma consente un’identificazione molto più accurata delle aberrazioni del numero di copie ed esplora la varianza strutturale e le firme di mutazione classificate in profondità associate alla malattia.”

Inoltre, il sequenziamento profondo dell’intero genoma è fondamentale nell’identificazione delle mutazioni subclonali. Questi sottocloni (proporzione del tumore <40%) sono stati importanti nello studio TRACERx e sono la chiave per comprendere lo sviluppo del tumore.

“Con Parabricks, abbiamo visto enormi accelerazioni per il sequenziamento dell’intero genoma per il solo progetto TRACERx EVO. Ciò consentirà di risparmiare quasi nove anni di tempo di elaborazione in base alla nostra attuale offerta di servizi HPC"
(da Accelerating Large-Scale Genomics Research webinar)

James Clements, Direttore delle operazioni IT e Vice CIO presso il Francis Crick Institute

Affrontare le sfide computazionali con NVIDIA

Sebbene il numero di campioni per lo studio TRACERx EVO sia paragonabile a quello della coorte TRACERx 421, il requisito di archiviazione è significativamente più elevato con oltre 1,3 petabyte di dati solo per gli allineamenti primari. Inoltre, le ore di CPU stimate per lo studio TRACERx EVO sono aumentate drasticamente con l'aggiunta dei dati di sequenziamento dell'intero genoma.

Numero di campioni, memoria stimata e ore di CPU stimate: allineamenti primari

Image credits here

Di conseguenza, è stata necessaria una nuova infrastruttura di calcolo per condurre uno studio di questa portata. "Grazie all'avvento degli strumenti NVIDIA Parabricks [accelerati da GPU], possiamo davvero velocizzare le parti critiche di questa pipeline", spiega Hill. "Abbiamo essenzialmente un sistema automatizzato che esegue i vari punti di controllo qualità in tutta la pipeline e ha accelerato l'allineamento e i processi di chiamata delle varianti incorporati all'interno di queste pipeline".

In preparazione allo studio TRACERx EVO, il team di Crick ha condotto un benchmark di allineamento primario per confrontare le CPU tradizionali con NVIDIA® Parabricks® accelerato da GPU. Il test è stato condotto su un flusso di lavoro multiparte (Nextflow) confrontando 16 core e 64 GB di RAM su calcolo x86 con l'esecuzione su GPU NVIDIA V100. Di conseguenza, il team ha esaminato il sequenziamento del genoma intero 250x da tumori già analizzati aumentando il risparmio di tempo di 26 volte senza perdere qualità nelle metriche risultanti.

L'investimento hardware di The Crick con NVIDIA: un caso aziendale che parla da sé

Il Crick ha subito una sostituzione completa HPC che ha incluso la sostituzione di storage, networking e calcolo della CPU, nonché un aggiornamento della GPU. James Clements, direttore delle operazioni IT e vice CIO presso il Francis Crick Institute, ha esaminato i 120 laboratori e le 15 piattaforme scientifiche e tecnologiche per capire i piani, i desideri e ciò che funzionava o non funzionava.

Nel solo progetto TRACERx EVO, il team ha osservato notevoli accelerazioni per il sequenziamento dell'intero genoma durante il test di Parabricks, tra cui l'allineamento FastQ e la chiamata DeepVariant. "Questo farà risparmiare quasi nove anni di tempo di elaborazione rispetto alla nostra attuale offerta di servizi HPC", spiega Clements.

Oltre al notevole risparmio di tempo, il team di Crick ha apprezzato l'approccio pratico con NVIDIA e la capacità di fornire feedback. Come afferma Clements, "siamo stati in grado di lavorare direttamente con il team di prodotto per testare le funzionalità di sviluppo e contribuire con idee per lo sviluppo futuro".

Di conseguenza, l'implementazione del Crick consiste in tre cluster, tutti connessi attraverso la rete NDR InfiniBand, tra cui:

  • NVIDIA A100 per un cluster di scopo generale conveniente e spazio efficiente, utilizzato per carichi di lavoro non ottimizzati.
  • NVIDIA L40 per la biologia della struttura, la microscopia crio-elettronica funziona per GPU a basso costo.
  • NVIDIA H100 per carichi di lavoro specifici, tra cui soluzioni ottimizzate come Parabricks.

Sia A100 che H100 sono su server Dell che utilizzano GPU SXM4 da 80 GB.

Clements riassume che l'impatto di NVIDIA "porterà a beneficio di Crick con decine di migliaia di ore di tempo di attesa risparmiato ogni singolo anno. Fornirà anche una piattaforma hardware per l'innovazione futura."

Vuoi iniziare?

Per ulteriori informazioni sulle soluzioni NVIDIA per la genomica, visitare il sito nvidia.com/parabricks.

Per ulteriori informazioni sul Francis Crick Institute, visitare il sito:https://www.crick.ac.uk/

“[Confrontando Parabricks con le CPU], abbiamo visto una velocità di 26 volte superiore e non c’è alcuna differenza nel tipo di output metrici di qualità quando ispezioniamo questi allineamenti [primari] back-to-back.” (da Accelerating Large-Scale Genomics Research webinar)

Mark S. Hill, ricercatore principale presso il Francis Crick Institute

Scopri di più sulle soluzioni NVIDIA per la genomica.