Aprendizaje de refuerzo

Técnica de aprendizaje robótico para desarrollar aplicaciones robóticas adaptables y eficientes.

Nissan

Image Credit: Agility, Apptronik, Fourier Intelligence, Unitree

Cargas de trabajo

Robótica

Sectores

Todos los sectores

Objetivo del negocio

Innovación

Productos

NVIDIA Omniverse
NVIDIA Omniverse Enterprise
NVIDIA AI Enterprise

Potenciar robots físicos con habilidades complejas usando el aprendizaje por refuerzo

A medida que los robots asumen tareas más complejas, los métodos de programación tradicionales se vuelven insuficientes. El aprendizaje por refuerzo (RL, por sus siglas en inglés) es una técnica de aprendizaje automático diseñada para abordar este desafío mediante la programación del comportamiento del robot. Con el aprendizaje por refuerzo (RL, por sus siglas en inglés) en simulación, los robots se pueden entrenar en cualquier entorno virtual a través de prueba y error, mejorando sus habilidades en control, planificación de rutas, manipulación y mucho más.

El modelo de RL es recompensado por las acciones deseadas, por lo que se adapta y mejora constantemente. Esto ayuda a los robots a desarrollar habilidades motoras finas y gruesas necesarias para tareas de automatización del mundo real, como agarrar objetos novedosos, caminar a cuatro patas y aprender habilidades de manipulación complejas.

Al perfeccionar continuamente las políticas de control basadas en las recompensas y analizar sus acciones, el RL también puede ayudar a los robots a adaptarse a nuevas situaciones y desafíos imprevistos, haciéndolos más versátiles para tareas del mundo real.

Entrenamiento de RL para robótica acelerado por GPU

El entrenamiento tradicional basado en CPU para RL de robots puede ser costoso, a menudo requiere miles de núcleos para tareas complejas que aumentan los costes de las aplicaciones de robots. Las GPU de NVIDIA abordan este desafío con sus capacidades de procesamiento paralelo y aceleran significativamente el procesamiento de datos sensoriales en entornos de aprendizaje por refuerzo habilitados para la percepción. Esto mejora significativamente las capacidades de los robots para aprender, adaptarse y realizar tareas complejas en entornos dinámicos.

Las plataformas de computación de NVIDIA, que incluyen herramientas como Isaac Lab, aprovechan la potencia de la GPU para realizar simulaciones físicas y cálculos de recompensa dentro de los procesos del RL. Esto elimina los cuellos de botella y agiliza el proceso, facilitando una transición más suave de la simulación a la implementación real.

Isaac Lab para el aprendizaje por refuerzo

NVIDIA Isaac™ Lab es un marco modular basado en NVIDIA Isaac Sim™ que simplifica los flujos de trabajo de entrenamiento de robots, como el aprendizaje por refuerzo e imitación. Los desarrolladores pueden aprovechar las más recientes capacidades de Omniverse™ para entrenar políticas complejas con la percepción habilitada.

  • Crear la escena: el primer paso es crear una situación en Isaac Sim o Isaac Lab e importar los activos del robot desde URDF o MJCF. Aplicar esquemas de física para simulación e integrar sensores de entrenamiento de políticas basadas en percepción.
  • Definir tareas de RL: una vez que la escena y el robot se han configurado, el siguiente paso es definir la tarea a completar y la función de recompensa. El entorno (por ejemplo, basado en el gestor o el flujo de trabajo directo) proporciona el estado actual u observaciones del agente y ejecuta las acciones que proporciona. El entorno responde entonces a los agentes ofreciendo los siguientes estados.
  • Entrenar: el último paso es definir los hiperparámetros para el entrenamiento y la arquitectura de la política. Isaac Lab pone a disposición cuatro bibliotecas de RL para entrenar los modelos con GPU: StableBaselines3, RSL-RL, RL-Games y SKRL.
  • Escalar: para escalar el entrenamiento en sistemas multiGPU y multinodo, los desarrolladores pueden usar OSMO para elaborar tareas de entrenamiento multinodo en una infraestructura distribuida.

El Proyecto GR00T ofrece a los desarrolladores una nueva forma de desarrollar robots humanoides específicamente. GR00T es un modelo de base de propósito general que puede ayudar a comprender el lenguaje, imitar movimientos humanos y adquirir habilidades rápidamente a través del aprendizaje multimodal. Para obtener más información y acceder a GR00T, apúntate al Programa de desarrolladores de NVIDIA Humanoid.

Ecosistema de socios

Observa cómo nuestro ecosistema crea sus propias aplicaciones y servicios de robótica basados en el aprendizaje por refuerzo y las tecnologías de NVIDIA.

Empezar

Hoy en día gran parte de investigadores y desarrolladores adoptan el aprendizaje por refuerzo en robótica. Más información sobre NVIDIA Isaac Lab para el aprendizaje de robots.

Noticias