Ciencias de la salud y de la vida

Ahorro de nueve años de tiempo de procesamiento con NVIDIA Parabricks

Células cancerosas pulmonares. Anne Weston, Francis Crick Institute

Objetivo

El Francis Crick Institute es líder en investigación biomédica de vanguardia, y trabaja incansablemente para mejorar la comprensión de la salud humana y la enfermedad, incluido el cáncer de pulmón. Como principal causa de mortalidad por cáncer en todo el mundo, con más de 1,8 millones de muertes en 2020, el cáncer de pulmón destaca la necesidad vital de comprender el proceso de metástasis. Los diagnósticos tardíos solo contribuyen a este problema. Estos desafíos sentaron las bases y sirvieron como catalizador para la investigación crítica financiada por Cancer Research UK, incluidos los estudios TRACERx y TRACERx EVO.

Cliente

Francis Crick Institute

Caso prácticos

Herramientas y técnicas de informática acelerada

Productos

NVIDIA Parabricks
NVIDIA A100
NVIDIA L40

Descripción general del estudio TRACERx

El estudio TRACERx, acrónimo en inglés de seguimiento de la evolución del cáncer a través de terapia TRAcking Cancer Evolution through therapy (Rx), tiene como objetivo comprender la evolución del tumor en los carcinomas broncopulmonares no microcíticos. Se analiza el diagnóstico mediante resección quirúrgica para curar o prevenir la recurrencia de la enfermedad.

El estudio consiste en la resección quirúrgica del tumor primario y los ganglios linfáticos cercanos de los participantes que se encuentran en estadios específicos de cáncer de pulmón. Se toman múltiples muestras de cada tumor extirpado y se envían para la secuenciación del exoma completo con secuenciación de ARN emparejado. Se pueden realizar y secuenciar micromatrices de tejido y muestras de ADNtc, seguido del análisis del número de copias genómicas y la reconstrucción de árboles filogenéticos para caracterizar la evolución del cáncer. Por último, se secuencian las lesiones metastásicas cuando están disponibles.

TRACERx 421 representa el punto medio del estudio total. De los 421 pacientes, hay 233 hombres y 188 mujeres con diversos estados de tabaquismo, que incluye:

    No fumadores:
  • 30
  • Exfumadores: 211
  • Fumadores actuales o recientes: 180

Metadatos como la edad, el número de paquetes por año, el estadio de la enfermedad y si se recibió algún tratamiento, también se tiene en cuenta. Los datos de secuenciación se analizan a través de una serie de procesos complejos, lo que resulta en un desglose detallado de la heterogeneidad mutacional y la heterogeneidad del número de copias en las regiones tumorales. Este enfoque en la heterogeneidad genómica es importante porque se ha demostrado que es el marcador de un buen pronóstico en los carcinomas broncopulmonares no microcíticos, según varios estudios. En el estudio 421, hay una alta heterogeneidad de la aberración somática del número de copias asociada a una menor recurrencia sin enfermedad.

Investigación TRACERx EVO: Un cambio hacia la secuenciación del genoma completo

TRACERx EVO es un estudio prospectivo y observacional que se basa en el trabajo de TRACERx destacado en la cohorte 421. La diferencia más notable en el estudio TRACERx EVO es el cambio a la secuenciación del genoma completo en lugar de la secuenciación del exoma completo. 

Mark S. Hill, investigador principal en Francis Crick Institute, explica: "La secuenciación del genoma completo permite una identificación mucho más precisa de las aberraciones del número de copias y explora la variación estructural y las firmas de mutación clasificadas profundamente asociadas a la enfermedad". 

Además, la secuenciación profunda del genoma completo es fundamental para identificar las mutaciones subclonales. Estos subclones (< 40 % de la proporción del tumor) fueron relevantes en el estudio TRACERx y son clave para comprender el desarrollo del tumor.

"Con Parabricks, hemos observado enormes adelantos para la secuenciación del genoma completo solo en el proyecto TRACERx EVO. Esto supondrá un ahorro de casi nueve años de tiempo de procesamiento respecto a nuestra actual oferta de servicios de HPC [computación de alto rendimiento]".
(del seminario web Aceleración de la investigación del genoma a gran escala)

James Clements, director de Operaciones de TI y director de sistemas de información adjunto en Francis Crick Institute

Resolución de desafíos computacionales con NVIDIA

Aunque el número de muestras para el estudio TRACERx EVO es comparable al de la cohorte TRACERx 421, el requisito de almacenamiento es significativamente mayor con más de 1,3 petabytes de datos solo para alineaciones primarias. Además, las horas de CPU estimadas para el estudio TRACERx EVO aumentaron considerablemente con la adición de datos de secuenciación del genoma completo.

Número de muestras, almacenamiento estimado y horas de CPU estimadas: alineaciones primarias

Image credits here

Como resultado, se necesitaba una nueva infraestructura de cómputo para realizar un estudio de esta magnitud. "Gracias a la llegada de las herramientas NVIDIA Parabricks [aceleradas por GPU], podemos realmente acelerar partes críticas de esta canalización", explica Hill. "Básicamente, tenemos un sistema automatizado que realiza los diversos puntos de control de calidad en todo el proceso y ha acelerado la alineación y los procesos de llamadas variantes integrados dentro de estos procesos". 

En preparación para el estudio TRACERx EVO, el equipo de Crick realizó una evaluación comparativa de alineación primaria para comparar las CPU tradicionales con NVIDIA Parabricks® acelerado por GPU. Las pruebas se realizaron en un flujo de trabajo multiparte (Nextflow) que comparó 16 núcleos y 64 GB de RAM en cómputo x86 para ejecutarse en varias GPU NVIDIA V100. Como resultado, el equipo revisó 250 veces la secuenciación del genoma completo de tumores ya analizados y experimentó un ahorro de tiempo 26 veces mayor sin diferencia en los resultados medibles de calidad.

La inversión en hardware de Francis Crick Institute con NVIDIA: un caso de negocio que se escribe solo

Francis Crick Institute se sometió a una sustitución total de HPC que incluía almacenamiento, redes y computación de CPU, así como la actualización de GPU. James Clements, director de Operaciones de TI y director de sistemas de información adjunto en Francis Crick Institute, examinó los 120 laboratorios y 15 plataformas de ciencia y tecnología para comprender los planes, los deseos y lo que funcionaba o no funcionaba. 

Solo en el proyecto TRACERx EVO, el equipo observó un aumento significativo de la velocidad en la secuenciación del genoma completo al probar Parabricks, incluida la alineación FastQ y la llamada DeepVariant. "Esto supondrá un ahorro de casi nueve años de procesamiento en comparación con nuestra oferta actual de servicios HPC", explica Clements. 

Además del impresionante ahorro de tiempo, el equipo de Crick apreció el enfoque práctico con NVIDIA y la capacidad de proporcionar información. Como afirma Clements, "Hemos podido trabajar directamente con el equipo de producto para probar la funcionalidad de desarrollo y aportar ideas para futuros desarrollos".

Como resultado, la implementación de Crick consta de tres clústeres, todos conectados a través de la red NDR InfiniBand, que incluye:

  • NVIDIA A100 para un clúster general económico y eficiente en términos de espacio, utilizado para cargas de trabajo no optimizadas.
  • NVIDIA L40 para trabajos de biología de estructuras y microscopía crioelectrónica para GPU de menor coste.
  • NVIDIA H100 para cargas de trabajo específicas, incluidas soluciones optimizadas como Parabricks.

Tanto A100 como H100 están en servidores Dell que utilizan GPU SXM4 de 80 GB.

Clements concluye que el impacto de NVIDIA "beneficiará al Crick con el ahorro de decenas de miles de horas de espera cada año. También proporcionará una plataforma de hardware para futuras innovaciones".

¿Listo para empezar?

Para obtener más información sobre las soluciones de NVIDIA para la genómica, visite: nvidia.com/parabricks

Para obtener más información sobre Francis Crick Institute, visite: https://www.crick.ac.uk/

"[Al comparar Parabricks con CPU], observamos un aumento de la velocidad de aproximadamente 26 veces, y eso sin ninguna diferencia en el tipo de resultados métricos de calidad cuando inspeccionamos estas alineaciones [principales] de forma consecutiva". (Extraído del seminario web Aceleración de la investigación del genoma a gran escala)

Mark S. Hill, investigador principal en Francis Crick Institute

Más información sobre las soluciones de NVIDIA para la genómica.