Área da Saúde e Ciências da Vida

Reduzindo a Análise Espacial e Unicelular de Horas para Minutos

Amostras de pulmão humano são executadas no 10x Genomics Xenium Analyzer e processadas via NVIDIA RAPIDS. Imagem fornecida por TGen.

Objetivo

O Translational Genomics Research Institute (TGen) é um instituto sem fins lucrativos que se concentra em uma variedade de doenças, desde a genômica do câncer até a genômica básica de doenças complexas. O aumento de dados de sequenciamento multiômico criou novos desafios computacionais. Usando NVIDIA RAPIDS™, a TGen conseguiu reduzir o tempo de análise em conjuntos de dados de 4 milhões de células de 10 horas para três minutos.

Cliente

TGen

Caso de Uso

Ferramentas e Técnicas de Computação Acelerada
Ciência de Dados

Produtos

NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX

Sobre TGen

Fundado em 2002, o TGen, parte do centro de pesquisa City of Hope, concentra-se em uma variedade de doenças que vão desde a genômica neurológica e do câncer até a genômica básica de doenças complexas. Como um instituto independente sem fins lucrativos, o objetivo do TGen é impactar o atendimento ao paciente e conduzir pesquisas que acelerem soluções translacionais usando genômica.

Nicholas Banvoich , PhD e professor associado da Divisão Integrada de Genômica do Câncer da TGen, dirige um laboratório de pesquisa focado nas mudanças moleculares que impulsionam os resultados das doenças, incluindo o início, progressão, tratamento e resposta da doença. O trabalho de sua equipe se concentra principalmente na fibrose pulmonar, uma doença pulmonar não cancerosa e na oncologia.

Além de seu laboratório, Banovich também dirige o centro do TGen para multiômica unicelular e espacial. Como ele explica, “Meu papel é trazer essas novas tecnologias que nos permitam impulsionar a multiômica unicelular e espacial, bem como trabalhar com parceiros como a NVIDIA em abordagens computacionais para análise de dados que poderiam então ser implantados de forma mais ampla fora apenas do meu laboratório.”

Obtendo Mais Informações com Abordagens Unicelulares

Historicamente, o TGen triturava tecidos, extraía informações moleculares de todas as células dentro dos tecidos e analisava essas informações de forma agregada. No entanto, isso apresentou alguns desafios. “Cada tecido, quer se trate de pulmões, coração ou cancro, não é constituído por um monólito. São realmente complexos e compostos por diferentes tipos de células”, explica Banovich. “Esses tipos de células estão fazendo coisas diferentes em relação à condução da progressão da doença, aos resultados e à resposta ao tratamento.” A equipe de Banovich conduziu ensaios em massa e comparou amostras de doenças e controle antes de usar abordagens unicelulares. No entanto, isso não forneceu o nível de granularidade necessário no nível celular. Em vez disso, essas abordagens forneceram apenas uma média de tudo o que estava acontecendo.

Banovich explica: “Quando começamos a usar abordagens unicelulares, podíamos realmente comparar maçãs com maçãs, e você poderia percorrer a lista de cada tipo de célula e dizer o que está acontecendo na doença e o que está acontecendo no controle”. As abordagens unicelulares permitiram a compreensão das bases moleculares da doença, mas havia outra abordagem que poderia fornecer ainda mais informações: espacial.

Nossa primeira execução com RAPIDS, sem nenhuma otimização, levou de 10 horas a 10 minutos. Com um pouco de ajuste adicional, reduzimos para três minutos para processar esses dados.

Evan Mee, Bioinformático, Divisão Integrada de Genômica do Câncer, TGen

Uma Explosão de Dados com Ômicas Espaciais

“Passando da célula única para a espacial, um dos maiores e imediatos impactos é que você está gerando imensas quantidades de dados”, explica Banovich. Para contextualizar o tamanho do aumento no fornecimento de dados espaciais, a equipe de Banvoich executou o sequenciamento de RNA unicelular no pulmão por aproximadamente sete anos e coletou amostras de mais de 200 pessoas. Como resultado, eles geraram dados de aproximadamente 2,5 milhões de células no total. Para um contexto ainda mais amplo, a totalidade do Atlas de Células do Pulmão Humano é de 4 milhões de células.

A TGen usa plataformas espaciais comerciais líderes, incluindo o Vizgen MERSCOPE e o 10x Genomics Xenium Analyzer. Com esses instrumentos espaciais, o TGen captura de 30.000 a 50.000 células por amostra, e uma única execução pode gerar dados de mais de 2 milhões de células. “Em duas execuções na plataforma Xenium, estamos basicamente gerando dados sobre mais células do que a totalidade do Projeto Atlas de Células do Pulmão Humano, que foi um esforço de 40 pesquisadores e 10 países”, explica Banovich. “São quantidades realmente imensas de dados.”

“Construímos o Xenium Analyzer para ajudar pesquisadores de ponta como o TGen a passar rapidamente do instrumento ao insight com nossa poderosa análise integrada, habilitada pelas GPUs NVIDIA. A combinação do Xenium com o NVIDIA RAPIDS acelera ainda mais nossos melhores workflows e permite análises mais precisas para que os pesquisadores possam ir da execução ao resultado e dos dados à descoberta ainda mais rápido. O trabalho da TGen está ultrapassando os limites da ciência e transformando nossa compreensão da saúde e da doença. O mundo não pode esperar por essas descobertas”, explica Adrian Benjamin, líder de marketing espacial global da 10x Genomics.

O 10x Genomics Xenium Analyzer. Imagem fornecida por 10x Genomics.

Desafios Computacionais de Ômicas Espaciais

Desde dados relacionais que permitem aos pesquisadores ver onde as células estão em relação umas às outras até dados de imagem que podem ser usados para sobrepor dados moleculares, a multiômica espacial abre novas oportunidades para uma compreensão mais profunda. No entanto, estas novas capacidades também trazem novos desafios computacionais. Foi crucial para o TGen não apenas encontrar uma maneira de enfrentar esses desafios, mas também garantir que eles pudessem aproveitar ao máximo as amostras recebidas dos estudos clínicos.

Os workflows padrão para processamento de dados de célula única eram gerenciáveis, pois a equipe raramente trabalhava com grandes conjuntos de dados. Assim que a equipe mudou para o espaço, eles rapidamente perceberam que esse era um desafio maior. As primeiras execuções de instrumentos ômicos espaciais resultaram em até 10 milhões de células. O instrumento Xenium Analyzer, desenvolvido pela NVIDIA, acelera o tempo de obtenção de resultados realizando análises integradas e gerando formatos de arquivo comuns para uso em ferramentas de terceiros. No entanto, os workflows padrão usados para análise terciária, de componentes principais e de cluster exigiram de 10 a 14 horas.

Para piorar ainda mais as coisas, esses pipelines não são consertados. Os dados são executados por meio de pipelines e os resultados são avaliados para verificar se o algoritmo de cluster funcionou conforme o esperado. Caso contrário, os parâmetros serão ajustados e o processo será repetido. Como explica Banovich: “Isso começa a se tornar muito, muito proibitivo se cada uma dessas iterações for um processo de 10 horas. Descobrimos que, mesmo com 3 ou 4 milhões de células, demoramos muito.”

Ao olharmos para o futuro, estamos falando sobre a geração de conjuntos de dados com dezenas de milhões ou talvez até centenas de milhões de células. A escalabilidade em conjuntos de dados desse tamanho só é possível porque conseguimos usar esta implementação RAPIDS.

Nicholas Banovich, PhD, Professor Associado, Divisão Integrada de Genômica do Câncer, TGen

Parceria com NVIDIA

Como resultado, a TGen recorreu ao NVIDIA RAPIDS, um conjunto de código aberto de ciência de dados acelerada por GPU e bibliotecas de IA que melhora o desempenho em pipelines de dados. “Decidimos analisar a implementação RAPIDS do Scanpy. Nossa primeira execução com RAPIDS, sem qualquer otimização, levou de 10 horas a 10 minutos”, explica Evan Mee, bioinformático da TGen. “Com um pequeno ajuste adicional, reduzimos três minutos para processar esses dados.”

Amostras de pulmão humano são executadas no 10x Genomics Xenium Analyzer. Imagem fornecida por TGen.

A economia de tempo também se traduz em pesquisas mais impactantes. Em vez de esperar pelo controle de qualidade e longos intervalos entre análises básicas, os membros da equipe de Banovich podem realizar um trabalho mais gratificante.

O RAPIDS mudou a forma como Banovich e sua equipe realizam análises e, em última análise, chegam a conclusões. Ser capaz de iterar rapidamente abre possibilidades para pesquisas futuras. O estudo de grandes conjuntos de dados revela uma imagem mais clara na pesquisa translacional. Por exemplo, os pesquisadores precisam observar como as células interagem em seus ambientes locais. Com tipos raros de células, isso requer a sondagem de um enorme número de células, o que não teria sido viável sem essas plataformas espaciais e a análise RAPIDS.

Além de compreender tipos de células raras, agora é possível construir grandes atlas em três dimensões. Os investigadores não só podem compreender como as células interagem a nível local, como também podem compreender a doença dentro da arquitectura mais ampla do tecido e ver como esta progride através do sistema, proporcionando uma visão muito mais granular da doença.

Banovich resume o impacto da NVIDIA neste próximo capítulo: “Ao olharmos para o futuro, estamos falando sobre a geração de conjuntos de dados com dezenas de milhões ou talvez até centenas de milhões de células. A escalabilidade entre conjuntos de dados desse tamanho só é possível porque conseguimos usar esta implementação RAPIDS.”

Saiba mais sobre as soluções NVIDIA para genômica.