「化学空間の可逆表現を継続的に改善したかったため、管理が容易で迅速な実験を可能にするプラットフォームが必要でした。」と Terray の機械学習ディレクター、John Parkhill 氏は述べました。「DGX Cloud は、クラウドの使いやすさとシンプルさをシームレスに実現します。マルチノードのトレーニング専用に構築された高速ネットワークは、私たちのニーズにとって特に重要でした。私たちはテラバイト以上のデータセットを扱っているため、モデルを効果的に学習させるためには膨大な計算リソースが必要なのです。」
「さらに、トライアルアンドエラーの実験を迅速に行う能力は、私たちのモデル開発研究において非常に価値があります。なぜなら、最も効果的なハイパーパラメーターを特定することはしばしば難しい作業だからです。DGX Cloud上での高速なジョブ実行は、私たちが迅速に失敗を特定し、モデルに必要な調整を行うのに役立ちました。たとえば、私はモデルの機能を無効にするなどの多くのアブレーション スタディを行い、Transformer のトークナイザーの要素を変更するとどのような影響があるかを判断することができました」と Williams 氏は述べました。
「トレーニング ジョブの設定プロセスは、手動でリモート マシンにコードをプッシュして同期を確認する面倒な作業から、DGX Cloud で [実行] を押すだけのシンプルなものに変わりました。既存のコードを大幅に変更する必要さえありませんでした。 「Base Command Platform を使用することで、マルチノード トレーニング ジョブのオーケストレーションが実質的に自動化されました。これにより、不可能だった方法で拡張できるようになりました。」
DGX Cloud でのノード 固定割り当ても大きな効率性向上をもたらしました。 「従来のクラウド サービスから GPU インスタンスを常に要求しても、利用できないようで、非常に厄介な経験でした。私が実験用に新しいノードが必要になったとしても、いつに入手できるか分かりません。 DGX Cloud なら、そんなことを心配する必要はありません」と Williams 氏は述べました。
「データ サイエンティストとして、私の限界はもはや小さな GPU ワークステーションではなく、 Terray のクラウド容量全体です。Base Command Platform を備えた DGX Cloud を使えば、ボタンを押すだけで単一ノードから 32 基の GPU クラスターに移行することができます。」 Parkhill 氏はさらに、「DGX Cloud は、開発者がインフラではなくイノベーションに集中できるように、必要な抽象度を提供してくれます。」と付け加えました。
Terray は、DGX Cloud 上でモデルを学習させて構築し、NVIDIA RTX™ A6000 GPU を搭載したオンプレミス クラスターで推論を展開するハイブリッド ソリューション アプローチを活用しており、実行します。ワークロードが急増しても、DGX Cloud はリソースの弾力性と流動性を提供します。
「NVIDIA AI の専門家たちが私たちの成功の鍵でした。」と Williams 氏は語りました。 「専任の専門家がログを検査し、すべてがスムーズに実行されたことを確認し、あらゆる問題を特定してくれました。私たちが思いつかなかった PyTorch と CUDA® の簡単な最適化を特定することで、ワークロードの効率が大幅に改善されました。さらに、遠隔測定データに対する貴重な洞察を提供するスクリプトの開発を支援してくれたので、メモリのアクティビティを監視し、パフォーマンスを向上させることができました。NVIDIA の AI の専門家によるサポートにより、私たちはプロセスの最適化から実験の実施に焦点を移すことができました。なぜなら、これは主に研究開発プロジェクトだからです。」