ヘルスケア & ライフ サイエンス

低分子創薬における生成 AI のための新しい分子言語

目的

Terray Therapeutics は、膨大で精密な実験データを使用して、NVIDIA DGX™ Cloud を活用し、低分子を設計するための化学と生成 AI の基盤モデルを学習させています。

お客様

Terray Therapeutics

用途

生成 AI

製品

NVIDIA Base Command Platform
NVIDIA DGX Cloud
NVIDIA AI Enterprise

化合空間は機能的に無限であり、1060 以上、つまり 10 の 60 乗以上もの薬に似た分子が存在する可能性があります。低分子創薬の目標は、この広大な化学空間を探索して、マルチパラメーター最適化の問題を満たすほんの数個の分子を見つけ出すことです。一般的な創薬プログラムは非常に効率が悪く基本的に制約があり、週に数十から数百の化合物しか探索できません。

Terray Therapeutics の目標は、低分子治療薬の発見と開発の方法を変えることです。同社のプラットフォームは、実験と計算を独自に融合させ、低分子創薬における生成 AI の可能性を実現します。つまり、最も困難な治療上の課題に対する解決策を見出すことが可能です。Terray は、高品質でスケーリングされたデータこそが、低分子の生成 AI を実現する鍵であると信じており、同社のすべての取り組みは反復アプローチに基づいています。これにより、低分子の生成最適化を可能にする、正確で目的に特化した膨大な量のデータが生み出されます。 Terray は、革新的なウェット ラボ 科学と AI 両方に重点を置き、低分子医薬品開発のスピード、コスト、成功率を変革することで、人々の健康を向上させます。

Terray Therapeutics

画像提供: Terray Therapeutics

数十億のデータ ポイントを活用するためのモデル開発のスケーリング

Terray プラットフォームは、毎日数億もの低分子と生物学的ターゲットとの相互作用を計測し、500 億の実験的な生物物理的測定値を持つデータベースを拡充しています。この高精度なデータは、革新的な解決策や並行したターゲット スクリーニング、数百万の分子を用いた迅速なヒットからリードへの取り組みを可能にします。

創薬に生成 AI を活用するための第一歩は、正確な実験データを豊富に持つことです。これには、創薬設計のための多くの有望な出発点が含まれます。しかし、同様に重要なのは、このデータに基づいて計算し、実用的な分子を設計する能力です。分子の言語と計算の言語の間 (またはその逆) で翻訳を行うために、Terray は化学空間のマルチモーダル エンコーダー/デコーダー モデルである COATI を開発しました。このモデルは、化学構造を有用な数値表現に変換し、AI を使用してデータをより効率的に処理します。分子の数値表現は、「デコード」または生成された、所望の特性を持つ分子を生成するための入力として使用でき、生成的な分子設計を実現します。

Terray が COATI を開発した当初は、オンプレミスの GPU ベースのサーバーや従来のクラウド サービスなど、さまざまなシステムを組み合わせて使用​​していました。当初、このインフラは、モデルをスケールアップするまでは機能していましたが、モデルが大きくなり複雑になるにつれて、分散トレーニング実行のプロビジョニングと構成が困難になっていきました。

「トレーニング実行の設定には時間もかかり、非常に複雑でした。」と Terray の機械学習エンジニアである Edward Williams 氏は述べています。 「分散トレーニングには、torchrun を利用しています。モデルをスケールアップするにつれて、リソースを割り当て、すべてのノード間でトレーニング コードを確実に同期させることがますます難しくなっていきました。失敗の追跡と処理も同様に煩雑で、何かが失敗した時、すぐにではなく、事後に知ることになっていました。トレーニング実行の設定にかかる時間、ノード間で変更を反映する手動プロセスに加えて、実験を実行する追加ノードを得られるかどうかが分からないことが、実験とチームの研究活動の拡大を妨げていました。」

  • 低分子創薬には、機能的に無限の化学空間を探索することが含まれており、一般的なアプローチでは週に数十から数百の化合物しか探索できません。
  • Terray Therapeutics は、高品質でスケーラブルなデータと実験と計算の融合によって推進される、低分子創薬のための生成 AI のパイオニアです。
  • Terray は、数億もの低分子のデータセットで事前に学習された化学の基盤モデルである COATI を開発しました。 COATI は分子を数学的表現に変換し、生成 AI が新しい最適化された分子を設計できるようにします。
  • NVIDIA DGX Cloud は、COATI 開発プロセスを大幅に改善し、モデルの学習を 1 週間からわずか 1 日に短縮し、専用 GPU とオンデマンドのリソース スケーリングを利用した効率的な実験が可能になりました。
  • NVIDIA Base Command™ Platform を使用することで、Terray ではワークロードの構成とモデルの最適化が容易になり、インフラ使用率が 4 倍向上しました。

画像提供: Terray Therapeutics

NVIDIA DGX Cloud: 生成 AI 向けの専用マルチノード トレーニング プラットフォーム

「化学空間の可逆表現を継続的に改善したかったため、管理が容易で迅速な実験を可能にするプラットフォームが必要でした。」と Terray の機械学習ディレクター、John Parkhill 氏は述べました。「DGX Cloud は、クラウドの使いやすさとシンプルさをシームレスに実現します。マルチノードのトレーニング専用に構築された高速ネットワークは、私たちのニーズにとって特に重要でした。私たちはテラバイト以上のデータセットを扱っているため、モデルを効果的に学習させるためには膨大な計算リソースが必要なのです。」

「さらに、トライアルアンドエラーの実験を迅速に行う能力は、私たちのモデル開発研究において非常に価値があります。なぜなら、最も効果的なハイパーパラメーターを特定することはしばしば難しい作業だからです。DGX Cloud上での高速なジョブ実行は、私たちが迅速に失敗を特定し、モデルに必要な調整を行うのに役立ちました。たとえば、私はモデルの機能を無効にするなどの多くのアブレーション スタディを行い、Transformer のトークナイザーの要素を変更するとどのような影響があるかを判断することができました」と Williams 氏は述べました。

「トレーニング ジョブの設定プロセスは、手動でリモート マシンにコードをプッシュして同期を確認する面倒な作業から、DGX Cloud で [実行] を押すだけのシンプルなものに変わりました。既存のコードを大幅に変更する必要さえありませんでした。 「Base Command Platform を使用することで、マルチノード トレーニング ジョブのオーケストレーションが実質的に自動化されました。これにより、不可能だった方法で拡張できるようになりました。」

DGX Cloud でのノード 固定割り当ても大きな効率性向上をもたらしました。 「従来のクラウド サービスから GPU インスタンスを常に要求しても、利用できないようで、非常に厄介な経験でした。私が実験用に新しいノードが必要になったとしても、いつに入手できるか分かりません。 DGX Cloud なら、そんなことを心配する必要はありません」と Williams 氏は述べました。

「データ サイエンティストとして、私の限界はもはや小さな GPU ワークステーションではなく、 Terray のクラウド容量全体です。Base Command Platform を備えた DGX Cloud を使えば、ボタンを押すだけで単一ノードから 32 基の GPU クラスターに移行することができます。」 Parkhill 氏はさらに、「DGX Cloud は、開発者がインフラではなくイノベーションに集中できるように、必要な抽象度を提供してくれます。」と付け加えました。

Terray は、DGX Cloud 上でモデルを学習させて構築し、NVIDIA RTX™ A6000 GPU を搭載したオンプレミス クラスターで推論を展開するハイブリッド ソリューション アプローチを活用しており、実行します。ワークロードが急増しても、DGX Cloud はリソースの弾力性と流動性を提供します。

「NVIDIA AI の専門家たちが私たちの成功の鍵でした。」と Williams 氏は語りました。 「専任の専門家がログを検査し、すべてがスムーズに実行されたことを確認し、あらゆる問題を特定してくれました。私たちが思いつかなかった PyTorch と CUDA® の簡単な最適化を特定することで、ワークロードの効率が大幅に改善されました。さらに、遠隔測定データに対する貴重な洞察を提供するスクリプトの開発を支援してくれたので、メモリのアクティビティを監視し、パフォーマンスを向上させることができました。NVIDIA の AI の専門家によるサポートにより、私たちはプロセスの最適化から実験の実施に焦点を移すことができました。なぜなら、これは主に研究開発プロジェクトだからです。」

「トレーニング ジョブを設定するためのプロセスは、手動でリモート マシンにコードをプッシュして同期を確認する面倒な作業から、DGX Cloud で [実行] を押すだけのシンプルなものに変わりました。」

Edward Williams 氏
Terray Therapeutics、機械学習エンジニア

「データ サイエンティストとして、私の限界はもはや小さな GPU ワークステーションではありません。それは Terray のクラウド容量全体です。Base Command Platform を備えた DGX Cloud を使えば、ボタンを押すだけで単一ノードから 32 基のGPU クラスターに移行することができます。」

John Parkhill 氏
Terray Therapeutics 、機械学習担当ディレクター

4 倍以上のリソース使用率で実験とモデルの最適化を促進

低分子研究は、化合物の設計、製造、テスト、分析、改良を継続的に繰り返し、望ましい特性を達成するプロセスです。 Parkhill 氏は、「DGX Cloud の使いやすさは、卓越したパフォーマンスを提供し、COATI のハイパーパラメーターを評価する際の反復処理を高速化するのに役立ち、他のクラウド サービスと比較して 4 倍の使用率を達成することができました。以前はモデルの学習に 1 週​​間かかっていましたが、1 日で完了できるようになりました。」と述べました。

Parkhill 氏はさらに、「今では、選択性や効能といった望ましい特性を持つ希少な分子を見つけるために、広大な化学空間を容易に探索できるようになりました。また、特定の特性を持つ候補を生成するようにモデルに指示することもでき、それらを分析するか、既知の分子に似ているがより最適な特徴を持つ新しい分子を発見することも可能です。」と述べました。

合成された分子に似た新しい分子を見つけることは重要です。なぜなら、化学的特性に関する既存の知識と理解を活用する貴重な出発点になるからです。これにより、研究者は安全性や有効性を含む挙動をより効果的に予測できるようになり、最終的には医薬品開発プロセスを加速させることができます。

「研究室でより多くの分子を生成し、DGX Cloud で反復学習を行うことで、私たちのモデルは時間の経過とともに改良されていきます。」

「DGX Cloud の使いやすさと卓越したパフォーマンスのおかげで、ターゲット分子を見つける際の反復処理が速くなり、他のクラウド サービスと比較して 4 倍の利用率を達成することができました。」

John Parkhill 氏
Terray Therapeutics、機械学習担当ディレクター

今後の展望

生成的分子設計と最適化という新たな分野は、低分子開発の臨床成功率を大幅に向上させる可能性を秘めています。 Terray の先駆的な取り組みにより、同社の画期的なモデルが業界全体に採用される道が開かれています。

「影響力のある生成 AI の鍵は、大規模で正確なデータを迅速に反復できることであり、Terray にはそれが備わっています。」と Terray の最高技術責任者、Narbe Mardirossian 氏は述べています。「DGX Cloud のおかげで、ヒットからリードへのプログラムやリード最適化のための分子の効率的で制約のある生成最適化を可能にする分子言語を開発することができました。これらのツールを使って、我々は患者に必要な多くの新しい治療法を提供することを期待しています。」

「以前はモデルの学習に 1 週​​間かかっていましたが、1 日で終わらせることができるようになりました。」

John Parkhill 氏
Terray Therapeutics、機械学習担当ディレクター

結果

  • 他のクラウド サービスと比較して、インフラ使用率が 4 倍以上向上
  • 学習時間を 1 週間から 1 日に短縮
  • DGX Cloud へのオンボードにに要した時間は 1 日未満
  • 複数の COATI バリエーションを並行して学習させ、最適な学習済み埋め込みを見つけることが可能

DGX プラットフォームを最も早く利用開始する方法は、生成 AI を開発する企業のために構築されたサーバーレスな AI-Training-as-a-service プラットフォーム である NVIDIA DGX Cloud です。