Santé et sciences de la vie

Gagner neuf ans de temps de traitement avec NVIDIA Parabricks

Cellules cancéreuses du poumon. Anne Weston, Institut Francis Crick

Objectif

L’Institut Francis Crick est un acteur majeur de la recherche biomédicale de pointe, travaillant sans relâche pour améliorer la compréhension de la santé humaine et des maladies, dont le cancer du poumon. Première cause de mortalité cancéreuse dans le monde, avec plus de 1,8 million de décès en 2020, le cancer du poumon souligne le besoin critique de comprendre le processus de métastase. Les diagnostics tardifs ne font que contribuer à ce problème. Ces difficultés ont jeté les bases et ont servi de catalyseur à la recherche essentielle financée par Cancer Research UK, notamment les études TRACERx et TRACERx EVO.

Client

L'Institut Francis Crick

Utilisation

Outils et techniques de calcul accéléré

Produits

NVIDIA Parabricks
NVIDIA A100
NVIDIA L40

Présentation de l’étude TRACERx

L’étude TRACERx – TRAcking Cancer Evolution through therapy (Rx), vise à comprendre l’évolution tumorale dans le cancer du poumon non à petites cellules. Elle se penche sur le diagnostic par résection chirurgicale pour guérir ou prévenir la réapparition de la maladie.

Cette étude consiste en une résection chirurgicale de la tumeur primaire et des ganglions lymphatiques voisins des participants qui sont à des stades spécifiques du cancer du poumon. De multiples échantillons sont prélevés sur chaque tumeur retirée et sont envoyés pour un séquençage de l'exome entier avec un séquençage par ARN à extrémité appariée. Des puces tissulaires et un échantillonnage d’ADNct peuvent être mis en œuvre et séquencés, accompagnés d’une analyse du nombre de copies génomiques et de la reconstruction des arbres phylogénétiques pour caractériser l’évolution du cancer. Enfin, les lésions métastatiques sont séquencées lorsque disponibles.

L'étude TRACERx 421 a lieu au milieu de l'étude totale. Sur 421 patients, on compte 233 hommes et 188 femmes à différents stades de tabagisme parmi lesquels :

  • Non fumeurs : 30
  • Anciens fumeurs : 211
  • Actuellement ou récemment fumeurs : 180

Des métadonnées telles que l'âge, le nombre de paquets par an, le stade de la maladie et l'existence d'une thérapie sont également prises en compte. Les données du séquençage sont ensuite analysées par une série de pipelines complexes, ce qui permet d'obtenir une répartition détaillée de l'hétérogénéité mutationnelle et de l'hétérogénéité du nombre de copie dans les région tumorales. Cette attention à l'hétérogénéité génomique est importante, car elles s'est avérée comme un marqueur de bon diagnostic dans le cancer du poumon non à petites cellules, d'après plusieurs études. Dans l'étude 421, une hétérogénéité élevée des aberrations du nombre de copies somatiques est associée à une moindre récurrence sans maladie.

Recherche TRACERx EVO : passage au séquençage du génome entier

TRACERx EVO est une étude prospective et observationnelle qui s’appuie sur les travaux de TRACERx mis en évidence dans la cohorte 421. La différence la plus notable dans l’étude TRACERx EVO est le passage au séquençage du génome entier au lieu du séquençage de l’exome entier. 

Mark S. Hill, chercheur principal au Francis Crick Institute, explique : "Le séquençage du génome entier permet d'identifier beaucoup plus précisément des aberrations du nombre de copies et explore la variance structurelle et les signatures de mutations profondément classées associées à la maladie." 

De plus, le séquençage approfondi du génome entier est essentiel pour identifier les mutations sous-clonales. Ces sous-clones (< 40 % de la proportion des tumeurs) étaient prédominants dans l’étude TRACERx et sont essentiels pour comprendre le développement des tumeurs.

"Avec Parabricks, nous avons constaté des accélérations énormes du séquençage du génome entier dans le cadre du seul projet TRACERx EVO. Cela va permettre de gagner près de neuf ans de traitement grâce à notre offre de services HPC [calcul haute performance] actuelle."
(extrait du webinaire Accelerating Large-Scale Genomics Research)

James Clements, directeur des opérations informatiques et directeur des systèmes d’information adjoint à l'institut Francis Crick

Résoudre les défis informatiques avec NVIDIA

Bien que le nombre d'échantillons de l'étude TRACERx EVO soit comparable à celui de la cohorte TRACERx 421, les besoins de stockage sont considérablement plus élevés, avec plus de 1,3 pétaoctets de données pour les seuls alignements primaires. De plus, le nombre d'heures d'utilisation estimées du CPU pour l'étude TRACERx EVO a augmenté de façon drastique avec l'ajout des données de séquençage du génome entier.

Nombre d'échantillons, stockage estimé et heures d'utilisation estimées du CPU – alignements primaires

Image credits here

Une nouvelle infrastructure de calcul a donc été nécessaire pour mener une étude de cette ampleur. "Grâce à l’avènement de l’outil NVIDIA Parabricks [accéléré par GPU], nous pouvons vraiment accélérer les parties critiques de ce pipeline", explique Hill. "Nous disposons en substance d’un système automatisé qui exécute les différents points de contrôle de la qualité dans le pipeline et des processus d’alignement et d’appel de variantes accélérés intégrés dans ces pipelines." 

Pour préparer l’étude TRACERx EVO, l’équipe Crick a effectué un banc d'essai d’alignement primaire pour comparer les processeurs classiques avec les processus NVIDIA® Parabricks® accélérés par GPU. Ces tests ont été menés sur un workflow en plusieurs parties (Nextflow), comparant l’exécution sur une architecture informatique x86 avec 16 cœurs et 64 Go de RAM à celle sur les GPU NVIDIA V100. L’équipe a ainsi examiné le séquençage du génome entier de tumeurs déjà analysées, ce qui a permis de gagner 26 fois plus de temps sans altérer la qualité des résultats.

L’investissement matériel de l'institut avec NVIDIA : une analyse de rentabilité convaincante

L'institut a procédé à un renouvellement complet de son système HPC comprenant le remplacement du stockage, du réseau et du traitement par CPU, ainsi qu'une mise à niveau des GPU. James Clements, directeur des opérations informatiques et directeur adjoint des systèmes d'information de l'institut Francis Crick, a passé en revue les 120 laboratoires et les 15 plateformes scientifiques et technologiques pour comprendre les plans, les aspirations et ce qui fonctionnait ou ne fonctionnait pas.

Rien que dans le projet TRACERx EVO, l'équipe a constaté des accélérations considérables du séquençage du génome entier lorsqu'elle a testé Parabricks, notamment l'alignement FastQ et les appels DeepVariant. "Cela va nous faire gagner près de neuf ans de traitement par rapport à notre offre de services HPC actuelle", explique M. Clements.

En plus des gains de temps impressionnants, l'équipe de l'institut Crick a apprécié l'approche pratique qu'offre NVIDIA et la possibilité de donner des retours d'information. Comme le souligne M. Clements, "nous avons pu travailler directement avec l'équipe produit pour tester les fonctionnalités de développement et proposer des idées en vue de développements futurs."

Par conséquent, l'implémentation de l'institut Crick est constituée de trois clusters, tous connectés par le réseau InfiniBand NDR, notamment :

  • NVIDIA A100 pour un cluster polyvalent économique et peu encombrant, utilisé pour des charges de travail non optimisées.
  • NVIDIA L40 pour les applications de biologie structurale et de cryo-microscopie électronique sur les GPU à faible coût.
  • NVIDIA H100 pour des charges de travail spécifiques, notamment les solutions optimisées telles que Parabricks.

Les modèles A100 et H100 sont tous deux installés sur des serveurs Dell équipés de GPU SXM4 de 80 Go.

M. Clements résume, en indiquant que l'impact de NVIDIA "profitera à l'institut Crick grâce à des dizaines de milliers d'heures d'attente économisées chaque année. Le système nous fournira également une plateforme matérielle propice aux innovations à venir."

Vous voulez vous lancer ?

Pour en savoir plus sur les solutions NVIDIA pour la génomique, visitez : nvidia.com/parabricks

Pour en savoir plus sur l'institut Francis Crick, visitez : https://www.crick.ac.uk/

"[En comparant Parabricks avec les processeurs], le traitement s'est déroulé environ 26 fois plus vite et ce indépendamment du type de mesure de qualité lorsque nous inspections ces alignements [primaires] l'un après l'autre." (extrait du webinaire Accelerating Large-Scale Genomics Research)

Mark S. Hill, chercheur principal à l’Institut Francis Crick

En savoir plus sur les solutions NVIDIA pour la génomique.