Este trabajo requiere la solución de un problema de machine learning computacionalmente intensivo conocido como factorización matricial no negativa (NMF). Ludmil Alexandrov desarrolló el enfoque para detectar firmas de mutaciones y el software (SigProfiler) mientras estaba en el Sanger Institute y continúa desarrollando este trabajo con su equipo en la Universidad de California, San Diego (UCSD). Juntos, NVIDIA y los equipos de Mutographs de UCSD y el Sanger Institute se unieron para utilizar GPU para acelerar esta investigación.
"Los proyectos de investigación como el Mutographs Grand Challenge son así: grandes desafíos que traspasan los límites de lo que es posible", dijo Pete Clapham, líder del Grupo de Apoyo a la Computación del Wellcome Sanger Institute. "Los sistemas NVIDIA DGX proporcionan una aceleración considerable que permite al equipo de Mutographs no solo satisfacer las demandas computacionales del proyecto, sino también impulsarlo aún más, entregando de manera eficiente resultados que antes eran imposibles".
Las GPU NVIDIA aceleran la aplicación científica al descargar las partes del código que consumen más tiempo. Si bien el Sanger Institute ahorra costos y mejora el rendimiento al ejecutar el trabajo computacional intensivo en GPU, el resto de la aplicación aún se ejecuta en la CPU. Desde la perspectiva del investigador, la aplicación general se ejecuta más rápido porque utiliza la potencia de procesamiento paralelo de la GPU para mejorar el rendimiento.
En el proyecto actual, los investigadores están estudiando el ADN de los tumores de 5.000 pacientes con cinco tipos de cáncer: páncreas, riñón, colorrectal y dos tipos de cáncer de esófago. Para estimar el rendimiento de la computación se utilizaron cinco matrices de datos sintéticos que imitan un tipo de perfiles mutacionales del mundo real. Un sistema NVIDIA DGX-1 ejecuta el algoritmo NMF en las cinco matrices, mientras que los trabajos de CPU replicados correspondientes se ejecutan en contenedores acoplables en máquinas virtuales (VM) OpenStack, específicamente 60 núcleos en procesadores Intel Xeon Skylake con 2,6 GHz y 697,3 GB de almacenamiento aleatorio. -memoria de acceso (RAM).
NVIDIA DGX-1 es un sistema integrado para IA que incluye ocho GPU NVIDIA V100 Tensor Core que se conectan a través de NVIDIA NVLink, la interconexión de GPU de alto rendimiento de NVIDIA, en una red híbrida de malla cúbica. Junto con las CPU Intel Xeon de doble socket y cuatro tarjetas de interfaz de red NVIDIA Mellanox® InfiniBand de 100GB, el DGX-1 ofrece un petaFLOPS de potencia de IA para un rendimiento de entrenamiento sin precedentes. El software del sistema DGX-1, las potentes bibliotecas y la red NVLink están optimizados para ampliar el deep learning en las ocho GPU V100 Tensor Core para proporcionar una plataforma flexible y de máximo rendimiento para el desarrollo y la implementación de aplicaciones de IA tanto en entornos de producción como de investigación.