Apprentissage par renforcement

Technique de Robot Learning pour développer des applications robotiques flexibles et efficaces.

Nissan

Image Credit: Agility, Apptronik, Fourier Intelligence, Unitree

Charges de travail

Robotique

Industries

Toutes les industries

Objectifs commerciaux

Innovation

Produits

NVIDIA Omniverse
NVIDIA Omniverse Enterprise
NVIDIA AI Enterprise

Donner aux robots physiques des compétences complexes en utilisant l’apprentissage par renforcement

Les robots prennent en charge des tâches plus complexes, et les méthodes de programmation traditionnelles deviennent insuffisantes. L’apprentissage par renforcement (RL) est une technique d’apprentissage automatique conçue pour relever ce défi en programmant le comportement du robot. Grâce au RL en simulation, les robots peuvent s’entraîner dans n’importe quel environnement virtuel par méthode essai-erreur, améliorant leurs compétences en matière de contrôle, de planification de parcours, de manipulation, et plus encore.

Le modèle de RL est récompensé pour les actions souhaitées, il s’adapte et s’améliore constamment. Cela permet aux robots de développer plus facilement des compétences motrices globales et fines sophistiquées, nécessaires pour des tâches d’automatisation réelles, telles que la saisie de nouveaux objets, la marche quadrupédique et l’apprentissage de compétences de manipulation complexes.

En affinant en permanence les politiques de contrôle sur la base de récompenses et en analysant leurs actions, le RL peut également aider les robots à s’adapter à de nouvelles situations et à des défis imprévus, les rendant plus adaptables aux tâches du monde réel.

Entraînement RL accéléré par GPU pour la robotique

L’entraînement traditionnel basé sur CPU pour le RL robotique peut être coûteux, nécessitant souvent des milliers de cœurs pour des tâches complexes qui augmentent les coûts des applications robotisées. Les GPU NVIDIA répondent à ce défi avec leurs capacités de traitement parallèle, accélérant de manière significative le traitement des données sensorielles dans les environnements d’apprentissage par renforcement basé sur la perception. Ils améliorent considérablement les capacités des robots à apprendre, à s’adapter et à effectuer des tâches complexes dans des environnements dynamiques.

Les plates-formes de calcul de NVIDIA, y compris les outils tels qu'Isaac Lab, exploitent la puissance du GPU pour les simulations physiques et les calculs de récompense dans le pipeline de RL. Elles éliminent les goulots d’étranglement et rationalisent le processus, facilitant une transition plus fluide de la simulation au déploiement réel.

Isaac Lab pour l’apprentissage par renforcement

NVIDIA Isaac™ Lab.est un framework modulaire basé sur NVIDIA Isaac Sim™ qui simplifie les workflows d’entraînement des robots tels que l’apprentissage par renforcement et par imitation. Les développeurs peuvent tirer parti des dernières fonctionnalités d’Omniverse™ pour l’entraînement des politiques complexes basées sur la perception.

  • Assembler la scène: la première étape consiste à construire une scène dans Isaac Sim ou Isaac Lab et à importer des ressources de robot depuis URDF ou MJCF. Appliquer des schémas de physique pour la simulation et intégrer des capteurs pour l’entraînement de la politique basée sur la perception.
  • Définir les tâches de RL: après la configuration de la scène et du robot, l’étape suivante consiste à définir la tâche à accomplir et la fonction de récompense. L’environnement (par exemple, Manager-Based ou Direct-Workflow) fournit l’état actuel ou les observations de l’agent et exécute les actions qu’il fournit. L’environnement répond alors aux agents en fournissant les états suivants.
  • Entraîner: la dernière étape consiste à définir les hyperparamètres pour l’entraînement et l’architecture du règlement. Isaac Lab fournit quatre bibliothèques RL pour l’entraînement des modèles avec les GPU : StableBaselines3, RSL-RL, RL-Games et SKRL.
  • Dimensionnement: pour dimensionner l’entraînement sur des systèmes multi-GPU et multi-nœuds, les développeurs peuvent utiliser OSMO pour orchestrer des tâches de formation multi-nœuds sur une infrastructure distribuée.

Le projet GR00T offre aux développeurs une nouvelle façon de développer spécifiquement des robots humanoïdes. GR00T est un modèle de base à usage général qui peut aider à comprendre le langage, à émuler les mouvements humains et à acquérir rapidement des compétences grâce à l’apprentissage multimodal. Pour en savoir plus et accéder à GR00T, inscrivez-vous au programme de développement NVIDIA Humanoid.

Écosystème de partenaires

Découvrez comment notre écosystème développe ses propres applications et services de robotique basés sur l’apprentissage par renforcement et les technologies NVIDIA.

Commencer

L’apprentissage par renforcement pour la robotique est largement adopté par les chercheurs et les développeurs d’aujourd’hui. En savoir plus sur NVIDIA Isaac Lab pour le Robot Learning.

Actualités