Santé et Sciences de la vie

Deloitte conçoit des pipelines de recherche pharmaceutique grâce à l’IA générative en quelques clics

Objectif

NVIDIA DGX™ Cloudsur Oracle Cloud Infrastructure (OCI) permet à Deloitte d’accélérer la recherche pharmaceutique dans sa solution Quartz Atlas AI grâce à l’IA générative. Deloitte utilise des graphes de connaissances alimentés par de grands modèles de langage (LLM), des pipelines scientifiques avec NVIDIA BioNeMo™, des modèles personnalisés et même des modèles de langage de chimie (CLM) et de langage de protéines (PLM) avant de les déployer en toute simplicité avec les microservices d’inférence de NVIDIA NIM.

Client

Deloitte Consulting LLP

Utilisation

IA générative/LLM

Produits

NVIDIA DGX Cloud
NVIDIA BioNeMo
NVIDIA AI Enterprise
NVIDIA NIM

Accélération des avancées médicales grâce à l’innovation en matière d’IA

En tant que centre névralgique de recherche du premier fournisseur mondial de services de conseil1 , le Centre de recherche intégrée de Deloitte a pour objectif d’explorer les opportunités transformatives dans tous les secteurs. En mettant fortement l’accent sur la santé, les équipes de recherche ont entrepris d’exploiter le potentiel de l’IA pour accélérer le processus de recherche pharmaceutique, qui s'avère long et onéreux puisqu'il faut en général compter 10 à 15 ans et au moins 1 à 2 milliards de dollars pour qu'un nouveau médicament soit approuvé pour un usage clinique. Ces coûts sont associés à un taux d’échec de 90 %.2 . Deloitte a ainsi reconnu la nécessité d’améliorer les modèles précliniques, la validation rigoureuse des cibles et les stratégies de prise de décision avant de se lancer dans des essais cliniques. L’objectif était de réduire de manière significative le nombre d’essais non concluants, afin d’améliorer le parcours de développement des médicaments.

1 Deloitte. Deloitte a été classé premier fournisseur de services de conseil au monde dans le Revenue in Gartner® Market Share Report. Juillet 2023.

2 NIH National Library of Medicine. Why 90% of Clinical Drug Development Fails and How to Improve It? Juillet 2022.

Quartz Atlas AI représente visuellement les connexions entre la protéine allergène de bouleau Bet-v-1 et les entités associées. Ces connexions proviennent à la fois d’expériences en laboratoire et de liens générés par des LLM provenant de PLM ou de CLM. L’intégration de données expérimentales avec des modèles mondiaux appris à partir de PLM et de CLM enrichit la compréhension des scientifiques en fournissant un contexte multimodal.

Révélation d'informations à partir de vastes jeux de données multimodaux et multi-domaines

L’avancement des médicaments candidats à la phase I des essais cliniques est une étape importante pour les sociétés pharmaceutiques. Cependant, neuf candidats sur 10 échouent par la suite, notamment lors des phases I, II, et III des essais, reflétant le défi que représente la recherche pharmaceutique. Ce pipeline complexe commence par l’identification des cibles liées à la maladie, la sélection de composants efficaces, l’optimisation des composants principaux pour la sécurité et l’efficacité, la réalisation d’essais précliniques et la progression des candidats retenus dans le cadre d’essais cliniques. L’intégration des données dans ce processus est un défi majeur, depuis l’intégration de diverses sources de données biologiques pour l’identification des cibles jusqu’à l’analyse de jeux de données complexes en dépistage. Deloitte reconnaît l’importance de l’intégration des données dans la recherche pharmaceutique grâce à l’IA, et a tenté d’utiliser l’IA générative pour rationaliser le processus, afin de gagner du temps et de l’argent.

"En tant que chercheurs, nous manipulons souvent des données multimodales, des textes aux graphiques en passant par les images, couvrant divers domaines scientifiques. Nous lisons des brevets et parcourons des documents de recherche en quête d’informations sur les anticorps et les relations entre les molécules", a expliqué Dan Ferrante, Responsable IA en innovation et R&D chez Deloitte Consulting LLP. "Nous voulions harmoniser ces données multimodales fragmentées provenant de dizaines de jeux de données en open-source, comme des versions d’archives telles que PubMed, le jeu de données Uniprot pour les protéines ou des jeux de données sur les anticorps, les petites molécules, etc. Ces ressources jouent un rôle crucial dans la prise de décision quotidienne concernant les produits biologiques et les petites molécules. Le défi consistait non seulement à introduire ces grands volumes de données dans des modèles avancés de Deep Learning, mais aussi à les entraîner sur de grands modèles de langage personnalisés pour les protéines et la chimio-informatique afin de les analyser et de les apprendre en vue de réaliser des prédictions précises. Ces recherches nécessitaient une infrastructure de calcul basé sur l'IA fiable et une pile logicielle hautement optimisée."

 
  • Mener des expériences sur DGX Cloud a augmenté la productivité des développeurs de 50 %, tandis que la rationalisation de l'entraînement multi-nœuds a permis de gagner de 7 à 10 mois de temps de déploiement.
  • Avec BioNeMo de NVIDIA AI Enterprise et DGX Cloud, l'assemblage d’un pipeline, qui prenait autrefois 4 à 6 semaines, peut désormais être accompli en quelques clics, ce qui permet aux chercheurs de se concentrer sur leurs projets.

Quartz Atlas AI affichant un graphe de connaissances interactif aux niveaux profonds d’enrichissement sémantique optimisé par l'IA (LLM, PLM, cLM, etc.) sur des données multimodales grâce à des connexions et des relations entre les points de données.

Expérimentation rapide avec une plateforme évolutive et des modèles personnalisables d’IA générative

La prédiction de la structure des protéines vise à anticiper la manière dont elles se replieront dans leur forme naturelle, ce qui est essentiel pour comprendre leur fonctionnement dans l’organisme et identifier des cibles potentielles pour les traitements. Deloitte a développé Quartz Atlas AI, un accélérateur de recherche pharmaceutique basé sur l’IA qui analyse les séquences d’acides aminés (éléments constitutifs des protéines) afin de déterminer la meilleure méthode de repliage, laquelle peut être donnée par un modèle de langage protéique ou une méthode de style de repliage. Ce processus permet de générer rapidement des structures 3D et de prédire comment les médicaments peuvent se lier à des parties spécifiques de la protéine. Un second modèle d’IA générative affine encore la structure de la protéine ou de la molécule pour repérer les régions susceptibles d’interagir avec des médicaments (en superposant une carte thermique des points chauds susceptibles d’être traités), ce qui facilite le développement de médicaments.

"Pour réussir à réunir les données et les pipelines scientifiques, nous avons associé les microservices BioNeMo de NVIDIA pour une prédiction optimisée des structures et les modèles d’IA générative propriétaires de Deloitte, qui sont entraînés avec DGX Cloud sur Oracle Cloud Infrastructure", a indiqué Ferrante. "Nous avons créé un graphe de connaissances fiable basé sur l’IA générative avec Atlas AI, en chargeant plus d’une douzaine de jeux de données, ce qui représente 12 millions de nœuds et 97 millions de liens de connexion, soit un total de 5 téraoctets en volume brut, consultable en quelques secondes. Nous sommes en mesure d’introduire cette grande quantité de données multimodales dans nos modèles, de cartographier l’espace de solution, d’analyser les schémas et d’effectuer des prédictions. L'’entraînement sur de vastes jeux de données et la mise à l'échelle efficace ont été rendus possibles grâce à DGX Cloud et à sa capacité à faciliter les tâches multi-nœuds. DGX Cloud sur OCI nous a permis d’accéder à la nouvelle architecture de NVIDIA et à une structure à faible latence permettant de faire évoluer la charge de travail sur des clusters interconnectés optimisés pour des performances maximales sur nos charges les plus exigeantes. »

Deloitte utilise les modèles NVIDIA BioNeMo, disponibles en tant que microservices de NVIDIA NIM, comprenant AlphaFold2, OpenFold, et ESMFold pour la prédiction de la structure des protéines, ainsi que MegaMolBART et MolMIM pour la génération de molécules. En cartographiant clairement ces molécules dans l’espace de solution, on peut facilement trouver des molécules similaires aux propriétés correspondantes, telles que la toxicité ou la solubilité. Ce processus méticuleux est crucial en recherche pharmaceutique car il facilite une sélection efficace de candidats potentiels, la prédiction précise de la sécurité et de l’efficacité, et l’exploration de divers espaces chimiques. Pour plus de compréhension, Deloitte a affiné un modèle ESM2 de 15 milliards de paramètres pour prédire les propriétés des protéines sur DGX Cloud, qui a été utilisé par un modèle en aval afin de générer de nouvelles séquences de protéines aux propriétés spécifiques souhaitées.

Le framework NVIDIA BioNeMo optimise l’entraînement des protéines

Le framework NVIDIA BioNeMo fournit des architectures de modèles et des outils optimisés pour l’entraînement des LLM de protéines et de petites molécules.

Une augmentation de la productivité des développeurs, accompagnée de modèles libres de toute contrainte de taille et d’échelle.

Ferrante a expliqué : "En biologie, de nombreux professionnels ne veulent pas s’encombrer des complexités d’infrastructure et d’écriture du codage. Cependant, l’utilisation des outils et des logiciels de DGX Cloud a simplifié ce processus. En seulement quelques clics, nos développeurs peuvent sélectionner un conteneur et accéder à un notebook, éliminant le besoin de recours direct à Secure Shell dans les nœuds. En nous permettant de mener facilement plus d'expériences que notre solution précédente avec une grande visibilité sur la file d’attente des tâches, DGX Cloud a augmenté la productivité de nos développeurs de 50 %."

"En raison de l’échelle de nos jeux de données, l'entraînement multi-nœuds est crucial. Auparavant, son exécution était un processus manuel et nous n’avions jamais essayé de le faire sur une plateforme en ligne. Grâce à DGX Cloud, l'entraînement multi-nœuds est désormais disponible en un clic, ce qui nous permet de gagner sept à dix mois de travail d’infrastructure et d’outillage, dont la mise en place du matériel, la création de conteneurs et la répartition de la charge de travail. Par conséquent, nos modèles ne sont plus soumis à des contraintes de taille ou d’échelle et nos cycles d’entraînement sont passés de quatre semaines à seulement huit heures."

"Par le passé, concevoir un pipeline de recherche pharmaceutique était un processus laborieux, nécessitant des opérations de rétro-ingénierie et de débogage sur toute la ligne de code, tout en suivant les modifications et en gérant de multiples versions. Assembler un pipeline nous prenait donc entre quatre et six semaines. À présent, nous pouvons lancer nos projets en quelques clics. Grâce à l’évolutivité des modèles de BioNeMo et à la simplicité de déploiement via NVIDIA NIM, les tâches de recherche et développement sont facilitées. Les modèles de fondation de BioNeMo sur DGX Cloud et la mise en œuvre d’une boucle d'inférence ont permis de renforcer la fiabilité du pipeline", a-t-il ajouté.

"Avec Atlas AI, Deloitte peut fournir des pipelines scientifiques aux utilisateurs pour obtenir des informations exploitables en combinant plusieurs modèles. Par exemple, au lieu de replier une molécule ou de calculer une propriété, il est possible de fournir un rapport complet contenant des structures ou des propriétés de repli offrant aux utilisateurs toutes les informations nécessaires pour prendre des décisions éclairées sur la viabilité d’une solution. L'entreprise peut également représenter graphiquement les relations entre les structures protéiques et leurs connexions, permettant de mieux comprendre des interactions moléculaires complexes."

Au-delà d’une plateforme puissante, l'apport de l’équipe d’experts des services NVIDIA pour les entreprises s’est révélée inestimable. "Nous avons bénéficié de l’assistance de bout en bout de NVIDIA, depuis l’assistance sur la plateforme pour la configuration de l'entraînement multi-nœuds et les mises à jour des conteneurs jusqu’aux guides d’application, en tirant parti de leur vaste expertise dans les modèles et les frameworks de santé pour optimiser efficacement nos modèles d’IA", a conclu Ferrante.

"En nous permettant de mener plus d’expériences simultanées que notre solution précédente, avec une grande visibilité sur la file d’attente des tâches, DGX Cloud a augmenté la productivité de nos développeurs de 50 %."

Dan Ferrante
Responsable IA en innovation et R&D, Deloitte Consulting LLP

"Grâce à DGX Cloud, l'entraînement multi-nœuds est désormais disponible en un clic, ce qui nous permet de gagner sept à dix mois de travail d’infrastructure et d’outillage... Nos cycles d’entraînement sont passés de quatre semaines à seulement huit heures."

Dan Ferrante
Responsable IA en innovation et R&D, Deloitte Consulting LLP

Le regard tourné vers l’avenir

"L'une des applications directes d’Atlas AI a été la possibilité d’utiliser l’IA pour prendre des médicaments approuvés par la FDA et concevoir in silico une version améliorée et brevetable de la molécule. Nous sommes désormais en mesure de charger tous les médicaments ayant fait l'objet d'un breveté et ayant été approuvés par la FDA. Notre modèle entraîné nous permet d’identifier de potentiels composants de départ dont la liaison à la cible est établie. Trouver des médicaments viables est extrêmement difficile en raison du grand nombre de composants potentiels et de la nécessité de propriétés spécifiques, ce qui revient à résoudre un problème d’optimisation complexe. MolMIM, qui fait partie de NVIDIA BioNeMo et est disponible en tant que microservice NIM, aide nos chercheurs à trouver les molécules idéales pour le développement de médicaments en maximisant une fonction de notation définie par l’utilisateur. Grâce à MolMIM, nous créons de nouveaux composants, optimisés pour divers aspects moléculaires tels que l’amélioration de la liaison, la perméabilité intestinale, la solubilité et la prolongation de la demi-vie", a ajouté Ferrante.

Deloitte compte encore améliorer Atlas AI en l’intégrant dans diverses applications de santé et de sciences de la vie, telles que la médecine de précision et l’avis du patient, afin d’améliorer l’engagement des patients et d’optimiser les résultats en matière de santé. "En tirant parti de BioNeMo et de DGX Cloud, nous pouvons établir facilement un pipeline d’entraînement standardisé pour divers domaines, ce qui nous permet de le régler sans effort pour des classes de protéines spécifiques ou des prédictions de structure d’anticorps", a-t-il conclu.

MolMIM effectue une génération contrôlée pour trouver les molécules présentant les propriétés adéquates.

"En tirant parti de BioNeMo et de DGX Cloud, nous pouvons établir facilement un pipeline d'entraînement standardisé pour divers domaines, ce qui nous permet de le régler sans effort pour des classes de protéines spécifiques ou des prédictions de structure d’anticorps."

Dan Ferrante
Responsable IA en innovation et R&D, Deloitte Consulting LLP

Résultats

  • Amélioration de la productivité des développeurs de 50 %
  • Gain de 7 à 10 mois en éliminant la configuration manuelle pour l'entraînement multi-nœuds
  • Réduction de l'entraînement de quatre semaines à huit heures
  • Réduction du délai de développement du pipeline de recherche pharmaceutique, qui passe de 4 à 6 semaines à quelques clics seulement

Le moyen le plus rapide de créer des applications d’IA générative passe par DGX Cloud, une plateforme d’IA dédiée aux développeurs.