Área de la Salud y Ciencias de la Vida

Reducción del Análisis Espacial y Unicelular de Horas a Minutos

Las muestras de pulmón humano se procesan en el analizador 10x Genomics Xenium y se procesan a través de NVIDIA RAPIDS. Imagen proporcionada por TGen.

Objetivo

El Translational Genomics Research Institute (TGen) es un instituto sin fines de lucro que se centra en una variedad de enfermedades, desde la genómica del cáncer hasta la genómica básica de enfermedades complejas. El aumento de datos procedentes de la secuenciación multiómica creó nuevos desafíos computacionales. Utilizando NVIDIA RAPIDS™, TGen pudo reducir el tiempo de análisis en conjuntos de datos de 4 millones de celdas de 10 horas a tres minutos.

Cliente

TGen

Caso de Uso

Herramientas y Técnicas de Computación Acelerada
Ciencia de Datos

Productos

NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX

Acerca de TGen

Fundada en 2002, TGen, parte del centro de investigación City of Hope, se centra en una variedad de enfermedades que van desde la genómica neurológica y del cáncer hasta la genómica básica de enfermedades complejas. Como instituto independiente sin fines de lucro, el objetivo de TGen es impactar la atención al paciente y realizar investigaciones que aceleren las soluciones traslacionales utilizando la genómica.

Nicholas Banvoich , PhD y profesor asociado de la División de Genómica Integrada del Cáncer de TGen, dirige un laboratorio de investigación centrado en los cambios moleculares que impulsan los resultados de las enfermedades, incluido el inicio, la progresión, el tratamiento y la respuesta de la enfermedad. El trabajo de su equipo se centra principalmente en la fibrosis pulmonar, una enfermedad pulmonar no cancerosa, y en la oncología.

Más allá de su laboratorio, Banovich también dirige el centro de TGen para multiómica espacial y unicelular. Como él explica, “Mi función es incorporar estas nuevas tecnologías que nos permitan impulsar la multiómica espacial y unicelular, así como trabajar con socios como NVIDIA en enfoques computacionales para analizar datos que luego podrían implementarse más ampliamente fuera de la red. de mi laboratorio”.

Obtener Más Información con Enfoques Unicelulares

Históricamente, TGen trituraba tejidos, extraía información molecular de todas las células dentro de los tejidos y analizaba esa información en conjunto. Sin embargo, esto planteó algunos desafíos. “Todos los tejidos, ya sea que se trate de los pulmones, el corazón o los cánceres, no están formados por un monolito. Son realmente complejos y están formados por diferentes tipos de células”, explica Banovich. "Estos tipos de células hacen cosas diferentes en relación con la progresión de la enfermedad, los resultados y la respuesta al tratamiento". El equipo de Banovich realizó ensayos en masa y comparó muestras de enfermedades y de control antes de utilizar enfoques unicelulares. Sin embargo, esto no proporcionó el nivel de granularidad necesario a nivel celular. Más bien, estos enfoques sólo proporcionaron un promedio de todo lo que estaba sucediendo.

Banovich explica: "Cuando comenzamos a utilizar enfoques unicelulares, realmente pudimos comparar manzanas con manzanas, y se podía revisar la lista de cada tipo de célula y decir qué está sucediendo en la enfermedad y qué está sucediendo bajo control". Los enfoques unicelulares permitieron comprender las bases moleculares de la enfermedad, pero había otro enfoque que podría proporcionar aún más información: el espacial.

Nuestra primera ejecución con RAPIDS, sin ninguna optimización, nos llevó de 10 horas a 10 minutos. Con un pequeño ajuste adicional, nos quedaban tan solo tres minutos para procesar estos datos

Evan Mee, Bioinformático, División Integrada de Genómica del Cáncer, TGen

Una Explosión de Datos con Ómicas Espaciales

"Al pasar de una sola celda a lo espacial, uno de los mayores impactos inmediatos es que se generan inmensas cantidades de datos", explica Banovich. Para proporcionar contexto sobre cuán grande es el aumento en los datos espaciales, el equipo de Banvoich realizó una secuenciación de ARN unicelular en el pulmón durante aproximadamente siete años y recopiló muestras de más de 200 personas. Como resultado, generaron datos de aproximadamente 2,5 millones de células en total. Para un contexto aún más amplio, la totalidad del Atlas de células del pulmón humano consta de 4 millones de células.

TGen utiliza plataformas espaciales comerciales líderes, incluidas Vizgen MERSCOPE y 10x Genomics Xenium Analyzer. Con estos instrumentos espaciales, TGen captura entre 30.000 y 50.000 células por muestra, y una sola ejecución puede generar datos de más de 2 millones de células. "En dos ejecuciones en la plataforma Xenium, básicamente estamos generando datos sobre más células que la totalidad del Proyecto Atlas de células del pulmón humano, que fue un esfuerzo de 40 investigadores y 10 países", explica Banovich. "Son cantidades de datos realmente inmensas".

“Creamos Xenium Analyzer para ayudar a investigadores de vanguardia como TGen a pasar rápidamente del instrumento al conocimiento con nuestro potente análisis integrado, habilitado por las GPU NVIDIA. La combinación de Xenium con NVIDIA RAPIDS acelera aún más nuestros mejores workflows y permite un análisis más preciso para que los investigadores puedan pasar de la ejecución al resultado y de los datos al descubrimiento aún más rápido. El trabajo de TGen está traspasando los límites de la ciencia y transformando nuestra comprensión de la salud y la enfermedad. El mundo no puede permitirse el lujo de esperar a estos descubrimientos”, explica Adrian Benjamin, líder de marketing espacial global de 10x Genomics.

El 10x Genomics Xenium Analyzer. Imagen proporcionada por 10x Genomics.

Desafíos Computacionales de las Ómicas Espaciales

Desde datos relacionales que permiten a los investigadores ver dónde se ubican las células entre sí hasta datos de imágenes que pueden usarse para superponerse con datos moleculares, la multiómica espacial abre nuevas oportunidades para una comprensión más profunda. Sin embargo, estas nuevas capacidades también plantean nuevos desafíos computacionales. Para TGen era crucial no solo encontrar una manera de abordar estos desafíos, sino también garantizar que pudieran aprovechar al máximo las muestras recibidas de los estudios clínicos.

Los workflows estándar para procesar datos unicelulares eran manejables, ya que el equipo trabajaba con grandes conjuntos de datos con poca frecuencia. Una vez que el equipo pasó a lo espacial, rápidamente se dieron cuenta de que se trataba de un desafío mayor. Las primeras pruebas con instrumentos de ómica espacial dieron como resultado hasta 10 millones de células. El instrumento Xenium Analyzer, con tecnología de NVIDIA, acelera el tiempo de obtención de resultados al realizar análisis integrados y generar formatos de archivos comunes para su uso en herramientas de terceros. Sin embargo, los workflows estándar utilizados para el análisis terciario, de componentes principales y de agrupación requirieron entre 10 y 14 horas.

Para empeorar aún más las cosas, estos pipelines no están reparados. Los datos se procesan a través de canales y luego se evalúan los resultados para determinar si el algoritmo de agrupación funcionó como se esperaba. De lo contrario, se modifican los parámetros y se repite el proceso. Como explica Banovich, “Esto comienza a volverse realmente prohibitivo si cada una de esas iteraciones es un proceso de 10 horas. Nos dimos cuenta de que, incluso con 3 o 4 millones de células, estábamos tardando demasiado”.

De cara al futuro, estamos hablando de generar conjuntos de datos con decenas de millones o incluso cientos de millones de células. La escalabilidad entre conjuntos de datos de ese tamaño solo es posible porque hemos podido utilizar esta implementación de RAPIDS

Nicholas Banovich, PhD, Profesor Asociado, División de Genómica Integrada del Cáncer, TGen

Asociación con NVIDIA

Como resultado, TGen recurrió a NVIDIA RAPIDS, un conjunto de código abierto de bibliotecas de inteligencia artificial y ciencia de datos aceleradas por GPU que mejora el rendimiento en todos los pipelines de datos. “Decidimos analizar la implementación RAPIDS de Scanpy . Nuestra primera ejecución con RAPIDS, sin ninguna optimización, nos llevó de 10 horas a 10 minutos”, explica Evan Mee, bioinformático de TGen. "Con un pequeño ajuste adicional, nos quedaban tan solo tres minutos para procesar estos datos".

Se analizan muestras de pulmón humano en el analizador 10x Genomics Xenium. Imagen proporcionada por TGen.

El ahorro de tiempo también se traduce en una investigación más impactante. En lugar de esperar el control de calidad y largos intervalos entre análisis básicos, los miembros del equipo de Banovich pueden realizar un trabajo más satisfactorio.

RAPIDS ha cambiado la forma en que Banovich y su equipo realizan análisis y, en última instancia, llegan a conclusiones. Ser capaz de iterar rápidamente abre posibilidades para futuras investigaciones. El estudio de grandes conjuntos de datos permite obtener una imagen más clara de la investigación traslacional. Por ejemplo, los investigadores necesitan observar cómo interactúan las células dentro de sus entornos locales. Con tipos de células poco comunes, esto requiere sondear una enorme cantidad de células, lo que no habría sido factible sin estas plataformas espaciales y análisis RAPIDS.

Además de comprender tipos de células raras, ahora es posible construir grandes atlas en tres dimensiones. Los investigadores no sólo pueden comprender cómo interactúan las células a nivel local, sino que también pueden comprender la enfermedad dentro de la arquitectura más amplia del tejido y ver cómo progresa a través del sistema, lo que proporciona una visión mucho más granular de la enfermedad.

Banovich resume el impacto de NVIDIA en el próximo capítulo: “Mirando hacia el futuro, estamos hablando de generar conjuntos de datos con decenas de millones o tal vez incluso cientos de millones de células. La escalabilidad entre conjuntos de datos de ese tamaño solo es posible porque hemos podido utilizar esta implementación de RAPIDS”.

Obtenga más información sobre las soluciones de NVIDIA para genómica.