Gesundheitswesen & Biowissenschaften

Einsparung von neun Jahren Verarbeitungszeit mit NVIDIA Parabricks

Lungenkrebszellen. Anne Weston, Francis Crick Institute

Ziel

Das Francis Crick Institute ist führend in der biomedizinischen Forschung und arbeitet unermüdlich daran, das Verständnis für menschliche Gesundheit und Krankheiten zu verbessern, u. a. für Lungenkrebs. Als führende Ursache für Krebssterblichkeit weltweit, mit über 1,8 Millionen Todesfällen im Jahr 2020, zeigt Lungenkrebs, wie dringend notwendig es ist, den Prozess der Metastasierung zu verstehen. Spätdiagnosen tragen nur noch weiter zu diesem Problem bei. Diese Herausforderungen legten den Grundstein und dienten als Antrieb für die wichtige Forschung, die von Cancer Research UK finanziert wurde, darunter die TRACERx- und TRACERx-EVO-Studien.

Kunde

Das Francis Crick Institute

Anwendungsfall

Tools und Techniken für beschleunigte Rechenleistung

Produkte

NVIDIA Parabricks
NVIDIA A100
NVIDIA L40

Überblick über die TRACERx-Studie

Die TRACERx (TRAcking Cancer Evolution through therapy (Rx))-Studie hat zum Ziel, die Tumorentwicklung bei nicht-kleinzelligem Lungenkrebs besser zu verstehen. Dabei verfolgt sie die Diagnose durch chirurgische Resektion zur Heilung oder Vorbeugung eines Krankheitsrezidivs.

Die Studie besteht aus einer chirurgischen Resektion des Primärtumors und der nahe gelegenen Lymphknoten von Teilnehmern, die sich in einem bestimmten Lungenkrebsstadium befinden. Von jedem entfernten Tumor werden mehrere Proben entnommen und zur vollständigen Exomsequenzierung mit gepaartem RNA-Sequenzieren geschickt. Gewebemikroarrays und ctDNA-Probenentnahme können durchgeführt und sequenziert werden, gefolgt von der genomischen Analyse der Kopienzahl und der Rekonstruktion von phylogenetischen Bäumen, um die Krebsentwicklung zu charakterisieren. Schließlich werden metastasierende Läsionen sequenziert, wenn verfügbar.

Der TRACERx 421 stellt den Halbwegpunkt der gesamten Studie dar. Unter den den 421 Patienten sind 233 Männer und 188 Frauen mit verschiedener Raucher-/Nichtraucherstatus, darunter:   

  • Nie geraucht: 30
  •  
  • Frühere Raucher: 211
  • Aktuelle oder bis vor Kurzem Raucher: 180

  Metadaten wie Alter, Anzahl der gerauchten Packungen pro Tag, Krankheitsstadium und ob eine Therapie durchgeführt wurde werden ebenfalls berücksichtigt. Die sequenzierten Daten werden dann von einer Serie komplexer Pipelines analysiert, wodurch eine detaillierte Aufstellung der Mutationsheterogenität und Kopierzahlheterogenität über verschiedene Tumorregionen hinweg erfolgt. Dieser Fokus auf die Genomheterogenität ist wichtig, weil sie sich in mehreren Studien als Marker für eine gute Prognose bei kleinzelligem Lungenkrebs erwiesen hat. In der 421-Studie ist eine hohe somatische Kopierzahlabweichungs-Heterogenität mit reduziertem krankheitsfreiem Wiederauftreten verbunden.

TRACERx EVO Forschung: Ein Wechsel zur Ganz-Genomsequenzierung

TRACERx EVO ist eine prospektive Beobachtungsstudie, die auf der Arbeit mit TRACERx aufbaut, die in der 421-Kohorte hervorgehoben wurde. Der bemerkenswerteste Unterschied in der TRACERx EVO-Studie ist die Umstellung auf die Sequenzierung des gesamten Genoms anstelle der Sequenzierung des gesamten Exoms.

Mark S. Hill, Principal Research Fellow am Francis Crick Institute, erklärt: „Die Sequenzierung des gesamten Genoms ermöglicht eine viel genauere Identifizierung von Abweichungen der Kopienzahl und untersucht die strukturelle Varianz und die tief klassifizierten Mutationssignaturen, die mit der Krankheit assoziiert sind.“

Darüber hinaus ist die tiefe Sequenzierung des gesamten Genoms entscheidend für die Identifizierung subklonaler Mutationen. Diese Subklone (<40% Tumoranteil) waren in der TRACERx-Studie prominent und sind der Schlüssel zum Verständnis der Tumorentwicklung.

„Mit Parabricks haben wir allein für das TRACERx EVO-Projekt enorme Geschwindigkeitssteigerungen bei der Sequenzierung des gesamten Genoms erzielt. Das wird uns im Vergleich zu unserer aktuellen HPC [High-performance Computing]-Leistung rund neun Jahre sparen.”
(aus dem Webinar Accelerating Large-Scale Genomics Research)

James Clements, Direktor für IT-Betrieb und stellvertretender CIO am Francis Crick Institute

Lösungen für Rechenherausforderungen mit NVIDIA

Obwohl die Anzahl der Proben für die TRACERx EVO-Studie mit der TRACERx 421-Kohorte vergleichbar ist, ist der Speicherbedarf mit über 1,3 Petabyte Daten nur für primäre Ausrichtungen deutlich höher. Zusätzlich stiegen die geschätzten CPU-Stunden für die TRACERx EVO-Studie mit der Zugabe von gesamten Genomsequenzierungsdaten drastisch an.

Anzahl der Samples, geschätzter Datenspeicher und geschätzte CPU-Stunden – Primäre Ausrichtungen

Image credits here

Aus diesem Grund war eine neue Recheninfrastruktur erforderlich, um eine Studie dieser Größenordnung durchzuführen. „Mit der Einführung von NVIDIA Parabricks [GPU-beschleunigten] Tools können wir kritische Teile dieser Pipeline richtig beschleunigen“, erklärt Hill. „Im Wesentlichen haben wir ein automatisiertes System, das die verschiedenen Qualitätskontrollen in der gesamten Pipeline durchführt. Dabei sind ein beschleunigtes Alignment und Variantenaufrufprozesse in diese Pipelines eingebettet.“

In Vorbereitung auf die TRACERx EVO-Studie führte das Crick-Team ein primäres Alignment-Benchmarking durch, um herkömmliche CPUs mit GPU-beschleunigten NVIDIA® Parabricks® zu vergleichen. Die Tests wurden an einem mehrteiligen Workflow (Nextflow) durchgeführt, in dem 16 Kerne und 64 GB RAM auf x86-Compute mit NVIDIA V100-GPUs verglichen wurden. In der Folge überprüfte das Team die 250-fache Gesamtgenomsequenzierung von bereits analysierten Tumoren und erzielte eine 26-fache Beschleunigung ohne Unterschiede in der hochwertigen metrischen Ausgabe.

Die Hardware-Investition des Francis Crick Institute in NVIDIA: Ein selbsterklärender Business Case

Das Francis Crick Institute nahm einen vollständigen Austausch seines HPC vor, einschließlich Speicher, Netzwerke und CPU-Rechner, sowie eine Erneuerung seiner GPU. James Clements, Leiter für IT Operations und stellvertretender CIO am Francis Crick Institute, analysierte die 120 Labore und 15 Wissenschafts- und Technologieplattformen, um Pläne und Anforderungen zu verstehen und herauszufinden, was funktionierte und was nicht.

Allein im TRACERx EVO-Projekt stellte das Team beim Testen von Parabricks eine erhebliche Beschleunigung der gesamten Genomsequenzierung fest, darunter bei FastQ Alignment und bei DeepVariant Calling. „Dies spart rund neun Jahre Verarbeitungszeit im Vergleich zu unserer aktuellen HPC-Leistung“, erklärt Clements.

Zusätzlich zu der beeindruckenden Zeitersparnis schätzte das Team vom Francis Crick Institute den praktischen Ansatz von NVIDIA und die Möglichkeit, Feedback zu geben. Wie Clements erklärt: „Wir konnten direkt mit dem Produktteam zusammenarbeiten, um die Entwicklungsfunktionalität zu testen und Ideen für die zukünftige Entwicklung beizusteuern.“

Als Ergebnis besteht die Implementierung am Francis Crick Institute aus drei Clustern, die alle über das NDR InfiniBand-Netzwerk verbunden sind, darunter:

  • NVIDIA A100 für ein kosteneffektives und platzsparendes Allzweck-Cluster, das für nicht optimierte Workloads genutzt wird.
  • NVIDIA L40 für Strukturbiologie- und Kyroelektronenmikroskopie-Arbeiten für kostengünstigere GPUs.
  • NVIDIA H100 für spezifische Workloads, einschließlich optimierte Lösungen wie Parabricks.

Sowohl A100 als auch H100 laufen auf Dell-Servern mit 80GB SXM4 GPUs.

Clements fasst zusammen, dass die Auswirkungen von NVIDIA „dem Francis Crick Institute jedes Jahr durch Zehntausende eingesparter Wartezeitstunden zugute kommen wird. Außerdem schafft dies Hardwareplattform für zukünftige Innovationen.“

Sind Sie bereit?

Weitere Informationen zu NVIDIA-Lösungen für die Genomik finden Sie unter: nvidia.com/parabricks

Weitere Informationen zum Francis Crick Institute finden Sie unter: https://www.crick.ac.uk/

„[Im Vergleich von Parabricks und CPUs] konnten wir eine rund 26-fache Beschleunigung feststellen und das bei gleichbleibender Qualität der Messergebnisse, wenn wir diese [primären] Alignments einander gegenüberstellen.“ (aus dem Webinar „Accelerating Large-Scale Genomics Research“)

Mark S. Hill, leitender wissenschaftlicher Mitarbeiter am Francis Crick Institute

Erfahren Sie mehr über NVIDIA-Lösungen für die Genomik.