Área de la Salud y Ciencia de la Vida

Deloitte Crea Pipelines de Descubrimiento de Fármacos con IA Generativa en Unos Pocos Clics

Objetivo

NVIDIA DGX™ Cloud en Oracle Cloud Infrastructure (OCI) permite a Deloitte acelerar el descubrimiento de fármacos en su solución de IA Quartz Atlas con IA generativa. Utilizan gráficos de conocimiento basados en grandes modelos de lenguaje (LLM), pipelines científicas con NVIDIA BioNeMo™, modelos personalizados e incluso entrenan sus propios modelos de lenguaje químico (CLM) y modelos de lenguaje de proteínas (PLM) antes de implementarse sin problemas a escala con los microservicios de inferencia de NVIDIA NAM.

Cliente

Deloitte Consulting LLP

Caso de Uso

IA generativa / LLMs

Productos

NVIDIA DGX Cloud
NVIDIA BioNeMo
NVIDIA AI Enterprise
NVIDIA NIM

Aceleración de los Avances Médicos A Través de la Innovación en IA

Como centro neurálgico de investigación del principal proveedor de servicios de consultoría del mundo, el Centro de Investigación Integrada de Deloitte[1] se dedica a explorar oportunidades transformadoras en todas las industrias. Con un fuerte énfasis en el área de la salud, el equipo de investigación se propuso aprovechar el potencial de la IA para acelerar el proceso de descubrimiento de fármacos. El descubrimiento de fármacos es un proceso largo y costoso, que lleva más de 10 a 15 años y cuesta, en promedio, más de 1 a 2 mil millones de dólares por cada nuevo medicamento que se aprueba para uso clínico. Esos costos van acompañados de una abrumadora tasa de fracaso del 90 por ciento[2]. Ante esto, el equipo de Deloitte reconoció la necesidad de mejorar los modelos preclínicos, la validación rigurosa de los objetivos y mejorar las estrategias de toma de decisiones antes de embarcarse en los ensayos clínicos. Su objetivo era reducir significativamente la tasa de ensayos fallidos y, en última instancia, mejorar el proceso de desarrollo de fármacos.

1 Deloitte. Deloitte Ranked No. 1 Consulting Service Provider Worldwide by Revenue in Gartner® Market Share Report. July 2023.

2 NIH National Library of Medicine. Why 90% of Clinical Drug Development Fails and How to Improve It? July 2022.

Quartz Atlas AI representa visualmente las conexiones entre la proteína alergénica de abedul Bet-v-1 y las entidades asociadas. Estas conexiones se originan tanto en experimentos de laboratorio húmedo como en enlaces generados por LLM procedentes de PLM o CLM. La integración de datos experimentales con modelos del mundo aprendido de PLM y CLM enriquece la comprensión de los científicos al proporcionar un contexto multimodal.

Desentrañar Información a Partir de Vastos Conjuntos de Datos Multimodales y Multidominio

Llevar un candidato a fármaco a ensayos clínicos de fase I es un hito importante para las empresas farmacéuticas. Sin embargo, nueve de cada 10 candidatos fracasan durante las fases posteriores, incluidos los ensayos de fase I, II y III, lo que refleja los desafíos del descubrimiento de fármacos. Esta compleja línea comienza con la identificación de objetivos relacionados con enfermedades, la selección de compuestos para determinar su eficacia, la optimización de los compuestos principales para su seguridad y eficacia, la realización de pruebas preclínicas y el progreso de los candidatos exitosos a través de los ensayos clínicos. La integración de datos en este proceso es un gran desafío, desde la integración de diversas fuentes de datos biológicos en la identificación de objetivos hasta el análisis de conjuntos de datos masivos en el cribado. Reconociendo la importancia de la integración de datos en el descubrimiento de fármacos impulsado por IA, Deloitte buscó utilizar la IA generativa para agilizar el proceso, con el objetivo de ahorrar tiempo y costes.

"Como investigadores, a menudo tratamos con datos multimodales, desde texto hasta gráficos e imágenes, que abarcan varios dominios científicos. Leemos las patentes y revisamos los artículos de investigación en busca de información sobre anticuerpos y la comprensión de las relaciones entre las moléculas", dijo Dan Ferrante, líder de IA para innovación e investigación y desarrollo en Deloitte Consulting LLP. "Queríamos armonizar estos datos multimodales fragmentados procedentes de docenas de conjuntos de datos de código abierto, incluidas versiones de archivos como PubMed, el conjunto de datos Uniprot para proteínas, conjuntos de datos de anticuerpos, conjuntos de datos de moléculas pequeñas, etc. Estos recursos juegan un papel crucial en la toma de decisiones cotidianas con respecto a los productos biológicos y las moléculas pequeñas. El desafío no era solo ingresar estos grandes volúmenes de datos en modelos avanzados de deep learning, sino también entrenarlos en grandes modelos de lenguaje personalizados  tanto para proteínas como para quimioinformática para analizar y aprender patrones para predicciones precisas. Esta investigación requirió una sólida infraestructura de computación de IA y una pila de software altamente optimizada".

 
  • La ejecución de experimentos en DGX Cloud aumentó la productividad de los desarrolladores en un 50 por ciento, mientras que la optimización de la capacitación de varios nodos ahorró entre 7 y 10 meses de tiempo de configuración.
  • Con BioNeMo de NVIDIA AI Enterprise y DGX Cloud, el trabajo de ensamblar un pipeline que antes tomaba de 4 a 6 semanas ahora se puede lograr con solo unos pocos clics, lo que permite a los investigadores sumergirse directamente en los proyectos.

Quartz Atlas AI muestra un gráfico de conocimiento interactivo que proporciona niveles profundos de enriquecimiento semántico habilitado por IA generativa (LLM, pLM, cLM, etc.) en datos multimodales a través de conexiones y relaciones entre puntos de datos.

Experimentación Rápida con una Plataforma Escalable y Modelos Personalizables de IA Generativa

La predicción de la estructura de las proteínas tiene como objetivo anticipar cómo se plegará una proteína en su forma natural, lo cual es crucial para comprender su función en el cuerpo e identificar posibles objetivos para las terapias farmacológicas. Deloitte ha desarrollado Quartz Atlas AI, un acelerador de descubrimiento de fármacos de IA que analiza las secuencias de aminoácidos (los componentes básicos de las proteínas) para determinar el mejor método de plegamiento, que puede ser dado por un modelo de lenguaje de proteínas o un método de estilo de plegamiento. Este proceso genera rápidamente estructuras 3D y predice cómo los fármacos pueden unirse a partes específicas de la proteína. Un modelo de IA generativa posterior refina aún más la estructura de la proteína o molécula para identificar las regiones dentro de ella que probablemente interactúen con los medicamentos (superponiendo un mapa de calor de puntos calientes farmacológicos), lo que ayuda en los esfuerzos de desarrollo de medicamentos.  

"Para unir con éxito los datos y los pipelines científicos, combinamos los microservicios BioNeMo de NVIDIA para la predicción optimizada de la estructura y los modelos de IA generativa patentados de Deloitte, que se entrenan con DGX Cloud en Oracle Cloud Infrastructure", dijo Ferrante. "Creamos un robusto gráfico de conocimiento impulsado por IA generativa con Atlas AI, cargando más de una docena de conjuntos de datos, lo que equivale a 12 millones de nodos y 97 millones de enlaces de borde de conexión, con un total de 5 terabytes en volumen bruto, que se puede buscar en segundos. Podemos introducir esta gran cantidad de datos multimodales en nuestros modelos, mapear el espacio de la solución, analizar patrones y hacer predicciones. La capacidad de entrenar con conjuntos de datos extensos y escalar de manera eficiente fue posible gracias al aprovechamiento de DGX Cloud y su capacidad para facilitar los trabajos de múltiples nodos. DGX Cloud en OCI nos proporcionó acceso a la última arquitectura de NVIDIA y a una estructura de baja latencia que permitió el escalado de cargas de trabajo en clústeres interconectados optimizados para obtener el máximo rendimiento en nuestras cargas de trabajo más exigentes".

Deloitte está utilizando modelos NVIDIA BioNeMo, disponibles como microservicios NVIDIA NIM, incluidos AlphaFold2, OpenFold y ESMFold para la predicción de la estructura de proteínas, junto con MegaMolBART y MolMIM para la generación de moléculas. Al mapear sin problemas estas moléculas en el espacio de la solución, pueden encontrar fácilmente moléculas similares con las propiedades correspondientes, como la toxicidad o la solubilidad. Este meticuloso proceso es crucial en el descubrimiento de fármacos, ya que facilita la selección eficiente de posibles candidatos, la predicción precisa de la seguridad y la eficacia, y la exploración de diversos espacios químicos. Para obtener más información, Deloitte ajustó un modelo ESM2 de 15 mil millones de parámetros para predecir las propiedades de las proteínas en DGX Cloud, que fue utilizado por un modelo posterior para generar nuevas secuencias de proteínas con propiedades específicas deseadas.

 NVIDIA BioNeMo Framework optimizes training protein

El framework NVIDIA BioNeMo ofrece arquitecturas de modelos optimizadas y herramientas para entrenar LLM de proteínas y moléculas pequeñas.

Un Aumento en la Productividad de los Desarrolladores, Junto con el Tamaño y la Escala del Modelo Sin Restricciones

Ferrante comentó: "En el campo de la biología, muchos profesionales no quieren lidiar con las complejidades de la infraestructura y escribir código. Sin embargo, el aprovechamiento de las herramientas y el software de DGX Cloud ha agilizado este proceso. Con solo unos pocos clics, nuestros desarrolladores pueden seleccionar un contenedor y acceder a un bloc de notas, lo que elimina la necesidad de Secure Shell en los nodos directamente. Al permitirnos ejecutar fácilmente múltiples experimentos en comparación con nuestra solución anterior con una gran visibilidad de la cola de trabajos, DGX Cloud ha aumentado la productividad de los desarrolladores en un 50 por ciento".

"Debido a la escala de nuestros conjuntos de datos, el entrenamiento de múltiples nodos fue crucial. Anteriormente, la orquestación del entrenamiento de varios nodos era un proceso manual y nunca lo habíamos intentado en una plataforma en la nube. Con DGX Cloud, la capacitación de varios nodos ahora es tan fácil como hacer clic en un botón, lo que nos ahorra de siete a 10 meses de trabajo de infraestructura y herramientas que incluyen la configuración del hardware, la creación de contenedores y la distribución de la carga de trabajo. Como resultado, nuestros modelos ya no están limitados por el tamaño o la escala de datos, y nuestras sesiones de entrenamiento se han reducido de cuatro semanas a solo ocho horas".

"Anteriormente, la construcción de la línea de descubrimiento de fármacos era un proceso laborioso, que requería que hiciéramos meticulosamente ingeniería inversa y depuráramos cada línea de código, mientras hacíamos un seguimiento de los cambios y gestionábamos múltiples versiones. Antes se tardaba entre cuatro y seis semanas en montar un pipeline, pero ahora, con unos pocos clics, podemos sumergirnos directamente en los proyectos. Gracias a la escalabilidad de los modelos BioNeMo y a la facilidad de implementación a través de NVIDIA NIM, las tareas de investigación y desarrollo se han vuelto mucho más fluidas. El ajuste fino de los modelos de base de BioNeMo en DGX Cloud y la implementación de un bucle de inferencia han fortalecido aún más la solidez de la tubería", dijo Ferrante.

"Con Atlas AI en su lugar, Deloitte puede proporcionar a los usuarios pipelines científicos para obtener información procesable mediante la combinación de múltiples modelos. Por ejemplo, en lugar de limitarse a plegar una molécula o calcular una propiedad, puede proporcionar un informe completo que contenga estructuras o propiedades plegadas, equipando a los usuarios con toda la información necesaria para tomar decisiones informadas sobre la viabilidad de una solución. También puede mostrar gráficamente las relaciones entre las estructuras de las proteínas y sus conexiones, lo que ayuda aún más a comprender las interacciones moleculares complejas".

Más allá de una potente plataforma, el equipo integral de expertos de los Servicios Corporativos de NVIDIA fue invaluable. "Nos beneficiamos del soporte de extremo a extremo de NVIDIA, que va desde la asistencia de la plataforma para la configuración de entrenamiento de múltiples nodos y las actualizaciones de contenedores hasta la orientación a nivel de aplicación, aprovechando su amplia experiencia en frameworks y modelos del área de la salud para optimizar nuestros modelos de IA de manera efectiva", dijo Ferrante.

"Al permitirnos ejecutar fácilmente más experimentos simultáneos en comparación con nuestra solución anterior con una gran visibilidad de la cola de trabajos, DGX Cloud ha aumentado la productividad de los desarrolladores en un 50 por ciento".

Dan Ferrante
Líder de IA para Innovación e Investigación y Desarrollo, Deloitte Consulting LLP

"Con DGX Cloud, la capacitación de múltiples nodos ahora es tan fácil como hacer clic en un botón, lo que nos ahorra de siete a 10 meses de trabajo de infraestructura y herramientas... Nuestros entrenamientos se han reducido de cuatro semanas a solo ocho horas".

Dan Ferrante
Líder de IA para Innovación e Investigación y Desarrollo, Deloitte Consulting LLP

Siguiendo Adelante

"Una de las aplicaciones directas de Atlas AI fue la capacidad de usar la IA para tomar medicamentos aprobados por la FDA y diseñar in silico una versión mejor y patentable de la molécula. Ahora podemos cargar todos los medicamentos que han sido patentados y todos los que han sido aprobados por la FDA. Nuestro modelo entrenado nos permite identificar posibles compuestos de partida con una unión objetivo-establecida. Encontrar medicamentos viables es extremadamente desafiante debido a la gran cantidad de compuestos potenciales y la necesidad de propiedades específicas, lo que lo hace similar a resolver un problema de optimización complejo. MolMIM, que forma parte de NVIDIA BioNeMo y está disponible como microservicio NIM, ayuda a nuestros investigadores a encontrar moléculas con las propiedades ideales para el desarrollo de fármacos mediante la maximización de una función de puntuación definida por el usuario. Usando MolMIM, generamos compuestos novedosos, que están optimizados para varios aspectos moleculares, como una unión mejorada, permeabilidad intestinal, solubilidad y vida media prolongada", agregó Ferrante.

Deloitte planea mejorar aún más la IA de Atlas integrándola en diversas aplicaciones del área de la salud y ciencias de la vida, como la medicina de precisión y la visión de la voz del paciente, para mejorar la participación del paciente y optimizar los resultados de salud. "Aprovechando BioNeMo y DGX Cloud, podemos establecer sin problemas una línea de entrenamiento estandarizada para diversos dominios, lo que nos permite ajustarla para clases específicas de proteínas o predicciones de estructura de anticuerpos sin esfuerzo", dijo Ferrante.

MolMIM realiza una generación controlada para encontrar moléculas con las propiedades adecuadas.

"Aprovechando BioNeMo y DGX Cloud, podemos establecer sin problemas una línea de entrenamiento estandarizada para diversos dominios, lo que nos permite ajustarla para clases específicas de proteínas o predicciones de estructura de anticuerpos sin esfuerzo".

Dan Ferrante
Líder de IA para Innovación e Investigación y Desarrollo Deloitte Consulting LLP

Resultados

 
  • Mejora de la productividad de los desarrolladores en un 50 %
  • Ahorro de 7 a 10 meses al eliminar la configuración manual para el entrenamiento de varios nodos
  • Reducción de la formación de cuatro semanas a ocho horas
  • Reducción del tiempo de desarrollo de la canalización de descubrimiento de fármacos de 4 a 6 semanas a solo unos pocos clics

El lugar más rápido para comenzar a crear aplicaciones de IA generativa es DGX Cloud, una plataforma de IA para desarrolladores.