Du contrôle moteur à l’intelligence incarnée

Contenu

Distiller les données en primitives de moteur contrôlables à l'aide de NPMP Coordination d’équipe émergente dans le football humanoïde Manipulation du corps entier et tâches cognitives utilisant la vision Contrôle sûr et efficace des robots du monde réel Avantages de l'utilisation de primitives motrices probabilistes neuronales

Recherche

Publié: 31 août 2022
Auteurs: Siqi Liu, Leonard Hasenclever, Steven Bohez, Guy Lever, Zhe Wang, SM Ali Eslami, Nicolas Heess

Utiliser des mouvements humains et animaux pour apprendre aux robots à dribbler un ballon et à des personnages humanoïdes simulés pour porter des boîtes et jouer au football

Personnage humanoïde apprenant à franchir une course d’obstacles par essais et erreurs, ce qui peut conduire à des solutions idiosyncrasiques. Heess et coll. « Émergence de comportements de locomotion dans des environnements riches » (2017).

Il y a cinq ans, nous avons relevé le défi d'enseigner à un personnage humanoïde pleinement articulé parcourir des parcours d'obstacles. Cela a démontré ce que l'apprentissage par renforcement (RL) peut réaliser par essais et erreurs, mais a également mis en évidence deux défis pour résoudre incarné intelligence:

Réutiliser les comportements précédemment appris : Une quantité importante de données était nécessaire pour que l’agent puisse « décoller ». Sans aucune connaissance initiale de la force à appliquer sur chacune de ses articulations, l'agent a commencé par des contractions aléatoires de son corps et est rapidement tombé au sol. Ce problème pourrait être atténué en réutilisant les comportements précédemment appris.
Comportements idiosyncratiques : Lorsque l’agent a finalement appris à naviguer dans les parcours d’obstacles, il l’a fait de manière peu naturelle (bien qu'amusant) des modèles de mouvement qui seraient peu pratiques pour des applications telles que la robotique.

Nous décrivons ici une solution aux deux défis appelées primitives motrices probabilistes neuronales (NPMP), impliquant un apprentissage guidé avec des schémas de mouvement dérivés des humains et des animaux, et discutons de la manière dont cette approche est utilisée dans notre Papier de football humanoïde, publié aujourd'hui dans Science Robotics.

Nous discutons également de la façon dont cette même approche permet la manipulation du corps entier d'un humanoïde à partir de la vision, comme un humanoïde portant un objet, et un contrôle robotique dans le monde réel, comme un robot dribble un ballon.

Distiller les données en primitives de moteur contrôlables à l'aide de NPMP

Un NPMP est un module de commande de moteur à usage général qui traduit les intentions du moteur à court horizon en signaux de commande de bas niveau. formé hors ligne ou via RL en imitant les données de capture de mouvement (MoCap), enregistrées avec des trackers sur des humains ou des animaux effectuant des mouvements d'intérêt.

Un agent apprenant à imiter une trajectoire MoCap (en gris).

Le modèle comporte deux parties :

Un encodeur qui prend une trajectoire future et la compresse en une intention motrice.
Un contrôleur de bas niveau qui produit l'action suivante compte tenu de l'état actuel de l'agent et de cette intention motrice.

Notre modèle NPMP distille d'abord les données de référence dans un contrôleur de bas niveau (à gauche). Ce contrôleur de bas niveau peut ensuite être utilisé comme module de commande de moteur plug-and-play sur une nouvelle tâche (à droite).

Après la formation, le contrôleur de bas niveau peut être réutilisé pour apprendre de nouvelles tâches, où un contrôleur de haut niveau est optimisé pour produire directement les intentions du moteur. Cela permet une exploration efficace – puisque des comportements cohérents sont produits, même avec des intentions motrices échantillonnées de manière aléatoire – et contraint la solution finale.

Coordination d’équipe émergente dans le football humanoïde

Le football a été un défi de longue date pour la recherche sur l'intelligence incarnée, nécessitant des compétences individuelles et un jeu d'équipe coordonné. Dans notre dernier travail, nous avons utilisé un NPMP comme préalable pour guider l’apprentissage des habiletés motrices.

Le résultat a été une équipe de joueurs qui ont progressé depuis l’apprentissage des compétences de poursuite du ballon jusqu’à finalement apprendre à se coordonner. Auparavant, dans un étude avec des modes de réalisation simples, nous avions montré que des comportements coordonnés peuvent émerger au sein d’équipes en compétition. Le NPMP nous a permis d’observer un effet similaire mais dans un scénario qui nécessitait un contrôle moteur nettement plus avancé.

Les agents imitent d’abord les mouvements des joueurs de football pour apprendre un module NPMP (en haut). Grâce au NPMP, les agents acquièrent ensuite des compétences spécifiques au football (en bas).

Nos agents ont acquis des compétences telles que la locomotion agile, les dépassements et la division du travail, comme le démontre une série de statistiques, y compris les mesures utilisées dans analyses sportives du monde réel. Les joueurs font preuve à la fois d'un contrôle moteur agile à haute fréquence et d'une prise de décision à long terme qui implique l'anticipation des comportements de leurs coéquipiers, conduisant à un jeu d'équipe coordonné.

Un agent apprenant à jouer au football de manière compétitive à l'aide de RL multi-agents.

Manipulation du corps entier et tâches cognitives utilisant la vision

Apprendre à interagir avec des objets à l’aide des bras constitue un autre défi de contrôle difficile. Le NPMP peut également permettre ce type de manipulation du corps entier. Avec une petite quantité de données MoCap d'interaction avec les boîtes, nous sommes en mesure de former un agent à transporter une boîte d'un endroit à un autre, en utilisant une vision égocentrique et avec seulement un signal de récompense clairsemé :

Avec une petite quantité de données MoCap (en haut), notre approche NPMP peut résoudre une tâche de transport de boîtes (en bas).

De même, on peut apprendre à l’agent à attraper et lancer des balles :

Humanoïde simulé attrapant et lançant une balle.

Grâce à NPMP, nous pouvons également aborder tâches de labyrinthe impliquant la locomotion, la perception et la mémoire:

Humanoïde simulé collectant des sphères bleues dans un labyrinthe.

Contrôle sûr et efficace des robots du monde réel

Le NPMP peut également aider à contrôler de vrais robots. Avoir un comportement bien régularisé est essentiel pour des activités comme marcher sur des terrains accidentés ou manipuler des objets fragiles. Les mouvements saccadés peuvent endommager le robot lui-même ou son environnement, ou au moins vider sa batterie. Par conséquent, des efforts importants sont souvent investis dans la conception d’objectifs d’apprentissage qui permettent à un robot de faire ce que nous voulons tout en se comportant de manière sûre et efficace.

Comme alternative, nous avons étudié si l'utilisation priors dérivés du mouvement biologique peut nous donner des compétences de mouvement bien régularisées, d'apparence naturelle et réutilisables pour les robots à pattes, telles que marcher, courir et tourner, qui peuvent être déployées sur des robots du monde réel.

En commençant par les données MoCap provenant d'humains et de chiens, nous avons adapté l'approche NPMP pour former des compétences et des contrôleurs en simulation qui peuvent ensuite être déployés sur de vrais robots humanoïdes (OP3) et quadrupèdes (ANYmal B), respectivement. Cela a permis aux robots d'être dirigés par un utilisateur via un joystick ou de dribbler une balle vers un emplacement cible de manière naturelle et robuste.

Les compétences de locomotion du robot ANYmal s'apprennent en imitant le chien MoCap.

Les compétences de locomotion peuvent ensuite être réutilisées pour la marche et le dribble de balle contrôlables.

Avantages de l'utilisation de primitives motrices probabilistes neuronales

En résumé, nous avons utilisé le modèle de compétences NPMP pour apprendre des tâches complexes avec des personnages humanoïdes dans des simulations et des robots du monde réel. Le NPMP regroupe les habiletés motrices de bas niveau de manière réutilisable, ce qui facilite l'apprentissage de comportements utiles qui seraient difficiles à découvrir par des essais et des erreurs non structurés. En utilisant la capture de mouvement comme source d’informations préalables, elle biaise l’apprentissage du contrôle moteur vers celui des mouvements naturalistes.

Le NPMP permet aux agents incarnés d'apprendre plus rapidement en utilisant RL ; apprendre des comportements plus naturalistes; apprendre des comportements plus sûrs, efficaces et stables adaptés à la robotique du monde réel ; et combiner le contrôle moteur de l'ensemble du corps avec des compétences cognitives à plus long terme, telles que le travail d'équipe et la coordination.

En apprendre plus sur notre travail:

Du contrôle moteur à l’intelligence incarnée

Distiller les données en primitives de moteur contrôlables à l'aide de NPMP

Coordination d’équipe émergente dans le football humanoïde

Manipulation du corps entier et tâches cognitives utilisant la vision

Contrôle sûr et efficace des robots du monde réel

Avantages de l'utilisation de primitives motrices probabilistes neuronales

Laisser un commentaire Annuler la réponse

Rester Connecter

Dernières nouvelles

Google a réduit les aperçus de l'IA dans la recherche avant même son fiasco « Pizza Glue »

OpenAI réagit à la version non censurée de ChatGPT

Cet outil de piratage extrait toutes les données collectées par la nouvelle IA de rappel de Windows

Comment avoir une voix de narrateur ?

Journal IA : Votre Source d’Innovation et d’Inspiration au Quotidien

Mention Légale

Inscrivez-vous à notre newsletter

Distiller les données en primitives de moteur contrôlables à l'aide de NPMP

Coordination d’équipe émergente dans le football humanoïde

Manipulation du corps entier et tâches cognitives utilisant la vision

Contrôle sûr et efficace des robots du monde réel

Avantages de l'utilisation de primitives motrices probabilistes neuronales

Vous pourriez aussi aimer

Inscrivez-vous à la newsletter quotidienne

Soyez à jour ! Recevez les dernières nouvelles directement dans votre boîte de réception.

Laisser un commentaire Annuler la réponse

Rester Connecter

Dernières nouvelles