Transformer-basierte große Sprachmodelle schaffen neue Möglichkeiten für die Echtzeit-Erforschung des chemischen Universums. BioNeMo ist ein domänenspezifisches Framework basierend auf NeMo Megatron für das Training und die Bereitstellung biomolekularer LLMs im Supercomputing-Maßstab. Es enthält die Transformer-Modelle MegaMolBART, ESM-1b und ProtT5.
MegaMolBART ist ein generatives Chemiemodell, das mit 1,4 Milliarden Molekülen (SMILES-Zeichenfolgen) trainiert wurde und für eine Vielzahl von Chemoinformatik-Anwendungen in der Medikamentenentwicklung verwendet werden kann, wie Reaktionsprognose, molekulare Optimierung und De-novo-Molekülgeneration für kleine Moleküle.
Bei ProtT5 und ESM-1b hat sich gezeigt, dass nicht überwachtes Vorabtraining verwendet werden kann, um gelernte Einbettungen zu erzeugen, die Eigenschaften zur Vorhersage von Proteinstruktur, Funktion, zellulärem Standort, Wasserlöslichkeit, Membrangebundenheit, konservierten und variablen Regionen und mehr enthalten.