Ciencia de Datos de Alto Rendimiento

Aproveche la potencia de las GPU para acelerar fácilmente sus workflows de ciencia de datos, machine learning e inteligencia artificial.

Ejecuta workflows completos de ciencia de datos dentro de la computación de GPU de alta velocidad y paraleliza la carga de datos, la manipulación de datos y el machine learning para obtener procesos integrales de ciencia de datos 50 veces más rápidos.

¿Por qué RAPIDS?

nvidia-data-science-process-1cn-d

Construyendo un Ecosistema de Alto Rendimiento

RAPIDS es un conjunto de API y bibliotecas de software de código abierto para ejecutar procesos de ciencia de datos completamente en la GPU. Esto permite reducir los tiempos de entrenamiento de días a minutos. RAPIDS se basa en NVIDIA® CUDA-X AI y une años de desarrollo en gráficos, machine learning, deep learning, computación de alto rendimiento (HPC) y más.

Tiempo de Ejecución Más Rápido

Tiempo de Ejecución Más Rápido

Con la ciencia de los datos, más computación le permite obtener información más rápidamente. RAPIDS aprovecha la tecnología NVIDIA CUDA® para acelerar sus workflows ejecutando todo el pipeline de entrenamiento de la ciencia de datos en las GPU. Esto puede reducir el tiempo de entrenamiento del modelo de días a minutos.

Utiliza las Mismas Herramientas

Utiliza las Mismas Herramientas

RAPIDS simplifica la ciencia de datos, ya que oculta las complejidades de trabajar con la GPU e incluso los protocolos de comunicación entre bastidores dentro de la arquitectura del data center. A medida que más científicos de datos utilizan Python y otros lenguajes de alto nivel, es esencial proporcionar aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Se Ejecuta en Cualquier Lugar a Escala

Se Ejecuta en Cualquier Lugar a Escala

RAPIDS se puede ejecutar en cualquier lugar, en cloud o en las instalaciones. Puedes escalarlo fácilmente desde una workstation a servidores de múltiples GPU y clústeres de múltiples nodos. También puedes implementarlo en la etapa de producción con Dask, Spark, MLFlow y Kubernetes.

Ciencia de Datos Lista para Empresas

Ciencia de Datos Lista para Empresas

El acceso a un soporte fiable suele ser vital para las organizaciones que utilizan la ciencia de datos para obtener informaciónes importantes. El soporte global de NVIDIA Enterprise está disponible con NVIDIA AI Enterprise, una suite de software de IA integral, e incluye tiempos de respuesta garantizados, notificaciones de seguridad prioritarias, actualizaciones periódicas y acceso a los expertos en IA de NVIDIA.

Rendimiento Ultrarrápido en Big Data

Los resultados muestran que las GPU brindan un gran ahorro de tiempo y costos para problemas de análisis de Big Data a pequeña y gran escala. Al utilizar API conocidas como Pandas y Dask, a una escala de 10 terabytes, RAPIDS funciona hasta 20 veces más rápido en GPU que la CPU. Con solo 16 NVIDIA DGX A100 para lograr el rendimiento de 350 servidores basados en CPU, la solución de NVIDIA es 7 veces más rentable y ofrece un rendimiento de nivel HPC.

nvidia-16-dgx-a100-2c50-d

Acceso Más Rápido a los Datos, Menor Movimiento de Datos

Las tareas comunes de procesamiento de datos tienen muchos pasos (procesos de datos), que Hadoop no puede manejar de manera eficiente. Apache Spark resolvió este problema manteniendo todos los datos en la memoria del sistema, lo que permitió procesos de datos más flexibles y complejos, pero introdujo nuevos cuellos de botella. Analizar incluso unos pocos cientos de gigabytes (GB) de datos podría llevar horas, incluso días, en los clústeres Spark con cientos de nodos de CPU. Para aprovechar el verdadero potencial de la ciencia de datos, las GPU deben estar en el centro del diseño del data center, que consta de estos cinco elementos: computación, redes, almacenamiento, implementación y software. En términos generales, los workflows integrales de ciencia de datos en las GPU son 10 veces más rápidos que en las CPU.

Leer el Blog ›

Data Processing Evolution

Faster Data Access, Less Data Movement

RAPIDS en Todas Partes

RAPIDS proporciona la base de un nuevo ecosistema de ciencia de datos de alto rendimiento y reduce la barrera de entrada para nuevas bibliotecas a través de la interoperabilidad. La integración con los principales frameworks de ciencia de datos (como Apache Spark, cuPY, Dask y Numba), así como numerosos frameworks de deep learning (como PyTorch, TensorFlow y Apache MxNet), ayuda a ampliar la adopción y fomenta la integración con otros frameworks. Puede encontrar RAPIDS y los frameworks correlativos en el catálogo de NGC.

  • Proyectos Destacados
  • Colaboradores
  • Adoptadores
  • Open Source
dask-logo

dask-sql es un motor SQL distribuido en Python, que realiza ETL a escala con RAPIDS para la aceleración en la GPU.

nvtabular-logo

NVTabular se basa en RAPIDS y acelera la ingeniería de funciones y el preprocesamiento para sistemas de recomendación en GPU.

custreamz-logo

cuStreamz se basa en Streamz, está escrito en Python y se desarrolló en RAPIDS. Permite acelerar el procesamiento de transmisión de datos en GPU.

plotly-dash-logo

Plotly Dash está integrado en RAPIDS y permite el análisis visual interactivo en tiempo real de conjuntos de datos de varios gigabytes, incluso en una sola GPU.

apache-spark-logo

El acelerador de RAPIDS para Apache Spark proporciona un conjunto de complementos para Apache Spark que aprovechan las GPU y permiten acelerar el procesamiento a través del software RAPIDS y UCX.

anaconda-logo
Blazing SQL
capital-one-logo
cupy-logo
chainer-logo
deepwave-digital-logo
gunrock-logo
quansight-logo
walmart-logo
booz-allen-hamilton-logo
capital-one-logo
cloudera-logo
databricks-logo
graphistry-logo
h2oai-logo
hpe-ezmeral-logo-215x121
ibm-logo
iguazio-logo
inria-logo
kinetica-logo
omnisci-logo
preferred-networks-logo
pytorch-logo
uber-logo
ursa-labs-logo
walmart-logo
apache-arrow-logo
Blazing SQL
cupy-logo
dask-logo
gpu-open-analytics-initiative-goai-logo
nuclio-logo
numba-logo
scikit-learn-logo
dmlc-xgboost-logo

Tecnología en el Núcleo

RAPIDS se basa en las primitivas de CUDA® para optimizar la computación de bajo nivel, pero expone el paralelismo de la GPU y el ancho de banda de alta memoria a través de interfaces Python fáciles de usar. RAPIDS admite workflows integrales de ciencia de datos, desde la carga y el preprocesamiento de datos hasta el machine learning, el análisis de gráficos y la visualización. Es un conjunto de Python completamente funcional que se adapta a los casos de uso de big data empresariales.

Carga y Preprocesamiento de Datos

Carga y Preprocesamiento de Datos

Las funciones de carga, preprocesamiento y ETL de datos de RAPIDS se basan en Apache Arrow para cargar, unir, agregar, filtrar y manipular datos, todo en una API familiar para los científicos de datos. Los usuarios pueden esperar aceleraciones típicas de 10 veces o más.

Machine Learning

Machine Learning

Los algoritmos de machine learning y las primitivas matemáticas de RAPIDS siguen una API familiar similar a scikit-learn. Las herramientas populares como XGBoost, Random Forest y muchas otras son compatibles con implementaciones de un solo GPU y de grandes data centers. Para grandes conjuntos de datos, estas implementaciones basadas en GPU pueden completarse de 10 a 50 veces más rápido que sus equivalentes de CPU.

Análisis de Gráficos

Análisis de Gráficos

Los algoritmos de gráficos de RAPIDS como PageRank y funciones como NetworkX hacen un uso eficiente del paralelismo masivo de las GPU para acelerar el análisis de gráficos grandes en más de 1000 veces. Explore hasta 200 millones de edges en una sola GPU NVIDIA A100 Tensor Core y escale a miles de millones de edges en clústeres NVIDIA DGX™ A100.

Visualización

Visualización

Las funciones de visualización de RAPIDS admiten el filtrado cruzado acelerado por GPU. Inspirado en la versión JavaScript del original, permite un filtrado multidimensional interactivo y súper rápido de más de 100 millones de conjuntos de datos tabulares de filas.

Machine Learning to Deep Learning: All on GPU

Integración de Deep Learning

Si bien el deep learning es eficaz en dominios como la visión por computadora, el procesamiento de idiomas naturales y los recomendadores, hay áreas en las que su uso no es generalizado. Los problemas de datos tabulares, que consisten en columnas de variables categóricas y continuas, comúnmente utilizan técnicas como XGBoost, aumento de gradiente o modelos lineales. RAPIDS agiliza el preprocesamiento de datos tabulares en la GPU y proporciona una transferencia de datos sin problemas directamente a cualquier framework compatible con DLPack, como PyTorch, TensorFlow y MxNet. Estas integraciones abren nuevas oportunidades para crear workflows enriquecidos, incluso aquellos que antes no tenían motivo, como incorporar nuevas funciones creadas a partir de frameworks de deep learning a los algoritmos de machine learning.

Data Centers Modernos para la Ciencia de Datos

Hay cinco ingredientes clave para desarrollar data centers optimizados con IA en la empresa. La clave del diseño es colocar las GPU en el centro.

Computación

Computación

Gracias a su enorme rendimiento computacional, los sistemas con las GPU de NVIDIA son el componente básico de computación para los data centers de IA. Los sistemas NVIDIA DGX ofrecen un rendimiento de inteligencia artificial innovador y pueden reemplazar, en promedio, 50 servidores de CPU de dos sockets. Este es el primer paso para brindar a los científicos de datos las herramientas más poderosas de la industria que les permiten explorar datos.

Software

Software

RAPIDS crea una forma sencilla de hacer ciencia de datos, ya que oculta las complejidades de trabajar con la GPU e incluso los protocolos de comunicación entre bastidores dentro de la arquitectura del data center. A medida que más científicos de datos utilizan Python y otros lenguajes de alto nivel, es esencial proporcionar aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Redes

Redes

El acceso remoto directo a memoria (RDMA) en los controladores de interfaz de red (NIC) de NVIDIA Mellanox®, NCCL2 (la biblioteca de comunicación colectiva de NVIDIA) y OpenUCX (un framework de comunicación integral de código abierto) ha permitido enormes mejoras en la velocidad de entrenamiento. Como RDMA permite que las GPU se comuniquen directamente entre sí a través de nodos a una velocidad de hasta 100 gigabits por segundo (Gb/s), pueden abarcar varios nodos y funcionar como si estuvieran en un único servidor masivo.

Implementación

Implementación

Las empresas se están trasladando a contenedores de Kubernetes y Docker para implementar procesos a escala. La combinación de aplicaciones en contenedores con Kubernetes permite a las empresas cambiar las prioridades sobre qué tarea es la más importante y agrega adaptabilidad, confiabilidad y escalabilidad a los data centers de IA.

Storage

Almacenamiento

GPUDirect® Storage permite que tanto NVMe como NVMe over Fabric (NVMe-oF) lean y escriban datos directamente en la GPU, sin pasar por la CPU ni la memoria del sistema. Esto libera la CPU y la memoria del sistema para otras tareas, al tiempo que le da a cada GPU acceso a datos con más órdenes de magnitud en hasta un 50 % más de ancho de banda.

Nuestro Compromiso con la Ciencia de Datos de Código Abierto

NVIDIA se compromete a simplificar, unificar y acelerar la ciencia de datos para la comunidad de código abierto. NVIDIA optimiza todo el conjunto, desde el hardware al software, y elimina los cuellos de botella para la ciencia de datos iterativa. Así, les permite a los científicos de datos de todo el mundo aumentar su productividad con menos. Esto genera más valor para las empresas a partir de sus recursos preciados: los datos y los científicos de datos. RAPIDS es un software de código abierto Apache 2.0, por lo que genera un ecosistema en la GPU.

Sin la potencia de computación, los científicos de datos tenían que ‘simplificar’ sus algoritmos para que pudieran ejecutarse lo suficientemente rápido. Esto es algo del pasado. “Las GPU nos permiten hacer cosas que antes no podíamos hacer.

- Bill Groves, Chief Data Officer, Walmart

Los modelos globales de la NASA producen terabytes de datos. Antes de RAPIDS, apretaba el botón y esperaba seis o siete horas para obtener los resultados. La aceleración del ciclo de entrenamiento permitió un cambio total en el desarrollo de los modelos.

- Dr. John Keller, NASA Goddard Space Flight Center

Capital One logró una mejora 100 veces mayor en los tiempos de entrenamiento de modelos y un ahorro de costos del 98% con RAPIDS.ai y Dask. Por lo tanto, considera que son los próximos avances más importantes para la ciencia de datos y el machine learning.

- Mike McCarty, Director de Ingeniería de Software, Capital One Center for Machine Learning

Comenzar Hoy Mismo