Área da Saúde e Ciências da Vida

Economizando Nove Anos no Tempo de Processamento com o NVIDIA Parabricks

Lung cancer cells. Anne Weston, Francis Crick Institute

Objetivo

O Francis Crick Institute é líder em pesquisa biomédica de ponta, trabalhando incansavelmente para melhorar a compreensão da saúde e das doenças humanas, incluindo o câncer de pulmão. Como a principal causa de mortalidade por câncer em todo o mundo, com mais de 1,8 milhão de mortes em 2020, o câncer de pulmão destaca a necessidade crítica de entender o processo de metástase. Diagnósticos tardios apenas contribuem ainda mais para esse problema. Esses desafios lançaram as bases e serviram como catalisador para pesquisas críticas financiadas pela Cancer Research UK, incluindo os estudos TRACERx e TRACERx EVO.

Cliente

Francis Crick Institute

Caso de Uso

Ferramentas e Técnicas de Computação Acelerada

Products

NVIDIA Parabricks
NVIDIA A100
NVIDIA L40

Visão Geral do Estudo TRACERx

O estudo TRACERx (TRAcking Cancer Evolution through therapy (Rx)) visa entender a evolução do tumor no câncer de pulmão de células não pequenas. Ele analisa o diagnóstico por meio de ressecção cirúrgica para curar ou prevenir a recorrência da doença.

O estudo consiste na ressecção cirúrgica do tumor primário e dos gânglios linfáticos próximos dos participantes que estão em estágios específicos do câncer de pulmão. Várias amostras são retiradas de cada tumor removido e enviadas para sequenciamento completo do exoma com sequenciamento de RNA emparelhado. Micromatrizes de tecido e amostragem de ctDNA podem ser conduzidos e sequenciados, seguidos de análise do número de cópias genômicas e reconstrução de árvores filogenéticas para caracterizar a evolução do câncer. Por fim, as lesões metastáticas são sequenciadas quando disponíveis. 

O TRACERx 421 representa o ponto médio do estudo total. Dos 421 pacientes, há 233 homens e 188 mulheres com vários status de tabagismo, incluindo:

 
  • Nunca fumou: 30
  • Ex-fumante: 211
  • Fumante atual ou recente: 180

 

Metadados como idade, número de maços por ano, estágio da doença e se alguma terapia foi recebida também são considerados. Os dados de sequenciamento são então analisados por uma série de pipelines complexos, resultando em uma análise detalhada da heterogeneidade mutacional e da heterogeneidade do número de cópias nas regiões do tumor. Esse foco na heterogeneidade genômica é importante porque demonstrou ser o marcador de bom prognóstico no câncer de pulmão de células não pequenas, de acordo com vários estudos. No estudo 421, há uma alta heterogeneidade de aberração do número de cópias somáticas associada à redução da recorrência livre de doença. 

Pesquisa TRACERx EVO: Uma Mudança para o Sequenciamento do Genoma Completo

TRACERx EVO é um estudo prospectivo e observacional que se baseia no trabalho TRACERx destacado na coorte 421. A diferença mais notável no estudo TRACERx EVO é a mudança para o sequenciamento do genoma completo em vez do sequenciamento completo do exoma. 

Mark S. Hill, principal pesquisador do Francis Crick Institute, explica: "o sequenciamento do genoma completo permite uma identificação muito mais precisa das aberrações do número de cópias e explora a variação estrutural e as assinaturas de mutações profundamente classificadas associadas à doença".   

Além disso, o sequenciamento profundo do genoma completo é fundamental na identificação de mutações subclonais. Esses subclones (proporção de tumor de <40%) foram proeminentes no estudo TRACERx e são fundamentais para entender o desenvolvimento do tumor.

"Com o Parabricks, vimos grandes acelerações no sequenciamento do genoma completo apenas para o projeto TRACERx EVO. Isso economizará quase nove anos de tempo de processamento com base em nossa oferta atual de serviços de HPC (computação de alto desempenho)." (Do webinar Accelerating Large-Scale Genomics Research)

James Clements, Diretor de Operações de IT e CIO Adjunto, Francis Crick Institute

Resolvendo Desafios Computacionais com a NVIDIA

Embora o número de amostras para o estudo TRACERx EVO seja comparável ao da coorte TRACERx 421, o requisito de armazenamento é significativamente maior, com mais de 1,3 petabytes de dados apenas para alinhamentos primários. Além disso, as horas de CPU estimadas para o estudo TRACERx EVO aumentaram significativamente com a adição de dados de sequenciamento do genoma completo.

Número de Amostras, Armazenamento Estimado e Horas Estimadas de CPU — Alinhamentos Primários

Image credits here

Como resultado, uma nova infraestrutura de computação foi necessária para realizar um estudo dessa magnitude. "Com o advento das ferramentas NVIDIA Parabricks (aceleradas por GPU), podemos realmente acelerar partes críticas desse pipeline", explica Hill. "Essencialmente, temos um sistema automatizado que executa os vários pontos de controle de qualidade em todo o pipeline e aceleramos os processos de alinhamento e chamada de variantes incorporados a esses pipelines." 

Em preparação para o estudo TRACERx EVO, a equipe de Crick realizou benchmarking de alinhamento primário para comparar CPUs tradicionais com NVIDIA® Parabricks® acelerados por GPU. Os testes foram conduzidos em um workflow de várias partes (Nextflow) comparando 16 núcleos e 64 GB de RAM em computação x86 com a execução em GPUs NVIDIA V100. Como resultado, a equipe revisou o sequenciamento do genoma completo de 250 vezes de tumores já analisados e experimentou uma aceleração de 26 vezes na economia de tempo, sem diferença nos resultados da métrica de qualidade.

O Investimento em Hardware de Crick com a NVIDIA: Um Caso de Negócios Que Se Escreve Sozinho

O Crick passou por uma substituição completa de HPC que incluiu a substituição de armazenamento, rede e computação de CPU, bem como uma atualização de GPU. James Clements, diretor de operações de IT e vice-CIO do Francis Crick Institute, analisou os 120 laboratórios e 15 plataformas de ciência e tecnologia para entender planos, desejos e o que estava ou não funcionando. 

Somente no projeto TRACERx EVO, a equipe viu acelerações significativas para o sequenciamento do genoma completo ao testar o Parabricks, incluindo o alinhamento FastQ e a chamada DeepVariant. "Isso economizará quase nove anos de tempo no processamento em relação à nossa oferta atual de serviços de HPC", explica Clements.

Além da impressionante economia de tempo, a equipe de Crick apreciou a abordagem prática com a NVIDIA e a capacidade de fornecer feedback. Como afirma Clements, "pudemos trabalhar diretamente com a equipe de produto para testar a funcionalidade de desenvolvimento e contribuir com ideias para o desenvolvimento futuro".

Como resultado, a implementação do Crick consiste em três clusters, todos conectados por meio da rede NDR InfiniBand, incluindo:

     
  • NVIDIA A100 para um cluster de uso geral econômico e eficiente em termos de espaço, usado para cargas de trabalho não otimizadas.
  • NVIDIA L40 para biologia estrutural, a microscopia crioeletrônica funciona para GPUs de baixo custo.
  • NVIDIA H100 para cargas de trabalho específicas, incluindo soluções otimizadas como Parabricks.

 

Tanto o A100 quanto o H100 estão em servidores Dell usando GPUs SXM4 de 80 GB.

Clements resume que o impacto da NVIDIA "beneficiará o Crick com dezenas de milhares de horas de tempo de espera economizado todos os anos. Ele também fornecerá uma plataforma de hardware para inovações futuras."

Pronto para Começar?

Para saber mais sobre as soluções NVIDIA para genômica, visite: nvidia.com/parabricks

Para saber mais sobre o Francis Crick Institute, visite:  https://www.crick.ac.uk/

"(Comparando Parabricks com CPUs), vimos uma velocidade de cerca de 26 vezes e isso sem diferença no tipo de saída métrica de qualidade quando inspecionamos esses alinhamentos (primários) consecutivamente." (Do webinar Accelerating Large-Scale Genomics Research

Mark S. Hill, Principal Pesquisador, Francis Crick Institute

Saiba mais sobre as soluções NVIDIA para genômica.