Área de la Salud y Ciencia de la Vida

Ahorro de Nueve Años de Tiempo en el Procesamiento con NVIDIA Parabricks

Lung cancer cells. Anne Weston, Francis Crick Institute

Objetivo

El Francis Crick Institute es líder en investigación biomédica de vanguardia, y trabaja incansablemente para mejorar la comprensión de la salud y las enfermedades humanas, incluido el cáncer de pulmón. Como principal causa de mortalidad por cáncer en todo el mundo, con más de 1,8 millones de muertes en 2020, el cáncer de pulmón pone de manifiesto la necesidad crítica de comprender el proceso de metástasis. Los diagnósticos tardíos no hacen más que agravar este problema. Estos desafíos sentaron las bases y sirvieron como catalizador para la investigación crítica financiada por Cancer Research UK, incluidos los estudios TRACERx y TRACERx EVO.

Cliente

Francis Crick Institute

Caso de Uso

Herramientas y Técnicas de Computación Acelerada

Productos

NVIDIA Parabricks
NVIDIA A100
NVIDIA L40

Resumen del Estudio TRACERx

El estudio TRACERx (TRAcking Cancer Evolution through therapy (Rx)), tiene como objetivo comprender la evolución tumoral en el cáncer de pulmón de células no pequeñas. Analiza el diagnóstico a través de la resección quirúrgica para curar o prevenir la recurrencia de la enfermedad.

El estudio consiste en la resección quirúrgica del tumor primario y de los ganglios linfáticos cercanos de los participantes que se encuentran en estadios específicos de cáncer de pulmón. Se toman múltiples muestras de cada tumor extirpado y se envían para la secuenciación del exoma completo con secuenciación de ARN emparejado. Se pueden realizar y secuenciar micromatrices de tejidos y muestras de ADNct, seguidas de un análisis del número de copias genómicas y la reconstrucción de árboles filogenéticos para caracterizar la evolución del cáncer. Por último, las lesiones metastásicas se secuencian cuando están disponibles. 

El TRACERx 421 representa el punto medio del estudio total. De los 421 pacientes, hay 233 hombres y 188 mujeres con diferentes estados de tabaquismo, entre ellos:

 
  • Nunca fumado: 30
  • Ex fumador: 211
  • Fumador actual o reciente: 180

 

También se tienen en cuenta metadatos como la edad, el número de paquetes por año, el estadio de la enfermedad y si se recibió algún tratamiento. A continuación, los datos de secuenciación se analizan mediante una serie de conductos complejos, lo que da como resultado un desglose detallado de la heterogeneidad mutacional y la heterogeneidad del número de copias en las regiones tumorales. Este enfoque en la heterogeneidad genómica es importante porque se ha demostrado que es el marcador de un buen pronóstico en el cáncer de pulmón de células no pequeñas, según varios estudios. En el estudio 421, hay una alta heterogeneidad de aberración del número de copias somáticas asociada con una menor recurrencia libre de enfermedad. 

Investigación TRACERx EVO: Un Cambio Hacia la Secuenciación del Genoma Completo

TRACERx EVO es un estudio prospectivo y observacional que se basa en el trabajo de TRACERx destacado en la cohorte 421. La diferencia más notable en el estudio TRACERx EVO es el cambio a la secuenciación del genoma completo en lugar de la secuenciación del exoma completo. 

Mark S. Hill, investigador principal del Francis Crick Institute, explica que "la secuenciación del genoma completo permite una identificación mucho más precisa de las aberraciones del número de copias y explora la varianza estructural y las firmas de mutaciones clasificadas profundas asociadas con la enfermedad". 

Además, la secuenciación profunda del genoma completo es fundamental para identificar mutaciones subclonales. Estos subclones (<40% de proporción tumoral) fueron prominentes en el estudio TRACERx y son clave para comprender el desarrollo tumoral.

"Con Parabricks, vimos enormes aceleraciones para la secuenciación del genoma completo solo para el proyecto TRACERx EVO. Esto ahorrará casi nueve años de tiempo de procesamiento basado en nuestra oferta actual de servicios de HPC (computación de alto rendimiento)". (Del webinar Accelerating Large-Scale Genomics Research)

James Clements, Director de Operaciones de TI y CIO Adjunto, Francis Crick Institute

Resolviendo Desafíos Computacionales con NVIDIA

Aunque el número de muestras para el estudio TRACERx EVO es comparable al de la cohorte TRACERx 421, el requisito de almacenamiento es significativamente mayor, con más de 1,3 petabytes de datos solo para alineaciones primarias. Además, las horas de CPU estimadas para el estudio TRACERx EVO aumentaron drásticamente con la adición de datos de secuenciación del genoma completo.

Número de Muestras, Almacenamiento Estimado y Horas de CPU Estimadas: Alineaciones Principales

Image credits here

Como resultado, se necesitó una nueva infraestructura de cómputo para realizar un estudio de esta magnitud. "Con la llegada de las herramientas NVIDIA Parabricks (aceleradas por GPU), realmente podemos acelerar partes críticas de esta tubería", explica Hill. "Básicamente, tenemos un sistema automatizado que realiza los diversos puntos de control de calidad a lo largo del pipeline y tenemos procesos acelerados de alineación y llamada de variantes integrados dentro de estes pipelines". 

En preparación para el estudio TRACERx EVO, el equipo de Crick llevó a cabo una evaluación comparativa de alineación primaria para comparar las CPU tradicionales con NVIDIA® Parabricks® acelerados por GPU. Las pruebas se llevaron a cabo en un workflow de varias partes (Nextflow) comparando 16 núcleos y 64 GB de RAM en computación x86 con la ejecución en GPU NVIDIA V100. Como resultado, el equipo revisó la secuenciación del genoma completo 250 veces de los tumores ya analizados y experimentó una aceleración de 26 veces en el ahorro de tiempo sin diferencias en los resultados de las métricas de calidad.

La Inversión en Hardware de Crick con NVIDIA: Un Caso de Negocio Que Se Escribe Solo

El Crick se sometió a un reemplazo completo de HPC que incluyó el reemplazo del almacenamiento, las redes y la computación de la CPU, así como una actualización de la GPU. James Clements, Director de Operaciones de TI y CIO Adjunto del Francis Crick Institute, analizó los 120 laboratorios y las 15 plataformas de ciencia y tecnología para comprender los planes, los deseos y lo que funcionaba o no. 

Solo en el proyecto TRACERx EVO, el equipo observó aceleraciones significativas para la secuenciación del genoma completo al probar Parabricks, incluida la alineación de FastQ y la llamada de DeepVariant. "Esto ahorrará casi nueve años de tiempo de procesamiento en relación con nuestra oferta actual de servicios de HPC", explica Clements.

Además del impresionante ahorro de tiempo, el equipo de Crick apreció el enfoque práctico con NVIDIA y la capacidad de proporcionar comentarios. Como afirma Clements, "hemos podido trabajar directamente con el equipo de producto para probar la funcionalidad de desarrollo y aportar ideas para el desarrollo futuro".

Como resultado, la implementación de Crick consta de tres clústeres, todos conectados a través de la red NDR InfiniBand, que incluyen:

     
  • NVIDIA A100 para un clúster de uso general rentable y eficiente en espacio, utilizado para cargas de trabajo no optimizadas.
  • NVIDIA L40 para biología de estructuras, la criomicroscopía electrónica funciona para GPU de menor costo.
  • NVIDIA H100 para cargas de trabajo específicas, incluidas soluciones optimizadas como Parabricks.

 

Tanto el A100 como el H100 se encuentran en servidores Dell que utilizan GPU SXM4 de 80 GB.

Clements resume que el impacto de NVIDIA "beneficiará a Crick con decenas de miles de horas de espera ahorradas cada año. También proporcionará una plataforma de hardware para la innovación futura".

¿Listo para Empezar?

Para obtener más información sobre las soluciones de NVIDIA para genómica, visite: nvidia.com/parabricks

Para obtener más información sobre el Francis Crick Institute, visite:  https://www.crick.ac.uk/

"(Comparando Parabricks con las CPU), vimos una aceleración de alrededor de 26 veces y eso no es diferente en el tipo de resultados métricos de calidad cuando inspeccionamos estas alineaciones (primarias) de forma consecutiva".(Del webinar Accelerating Large-Scale Genomics Research

Mark S. Hill, Investigador Principal, Francis Crick Institute

Obtén más información sobre las soluciones de NVIDIA para genómica.