Recherche
Utiliser des mouvements humains et animaux pour apprendre aux robots à dribbler un ballon et à des personnages humanoïdes simulés pour porter des boîtes et jouer au football
Il y a cinq ans, nous avons relevé le défi d'enseigner à un personnage humanoïde pleinement articulé parcourir des parcours d'obstacles. Cela a démontré ce que l'apprentissage par renforcement (RL) peut réaliser par essais et erreurs, mais a également mis en évidence deux défis pour résoudre incarné intelligence:
- Réutiliser les comportements précédemment appris : Une quantité importante de données était nécessaire pour que l’agent puisse « décoller ». Sans aucune connaissance initiale de la force à appliquer sur chacune de ses articulations, l'agent a commencé par des contractions aléatoires de son corps et est rapidement tombé au sol. Ce problème pourrait être atténué en réutilisant les comportements précédemment appris.
- Comportements idiosyncratiques : Lorsque l’agent a finalement appris à naviguer dans les parcours d’obstacles, il l’a fait de manière peu naturelle (bien qu'amusant) des modèles de mouvement qui seraient peu pratiques pour des applications telles que la robotique.
Nous décrivons ici une solution aux deux défis appelées primitives motrices probabilistes neuronales (NPMP), impliquant un apprentissage guidé avec des schémas de mouvement dérivés des humains et des animaux, et discutons de la manière dont cette approche est utilisée dans notre Papier de football humanoïde, publié aujourd'hui dans Science Robotics.
Nous discutons également de la façon dont cette même approche permet la manipulation du corps entier d'un humanoïde à partir de la vision, comme un humanoïde portant un objet, et un contrôle robotique dans le monde réel, comme un robot dribble un ballon.
Distiller les données en primitives de moteur contrôlables à l'aide de NPMP
Un NPMP est un module de commande de moteur à usage général qui traduit les intentions du moteur à court horizon en signaux de commande de bas niveau. formé hors ligne ou via RL en imitant les données de capture de mouvement (MoCap), enregistrées avec des trackers sur des humains ou des animaux effectuant des mouvements d'intérêt.
Le modèle comporte deux parties :
- Un encodeur qui prend une trajectoire future et la compresse en une intention motrice.
- Un contrôleur de bas niveau qui produit l'action suivante compte tenu de l'état actuel de l'agent et de cette intention motrice.
Après la formation, le contrôleur de bas niveau peut être réutilisé pour apprendre de nouvelles tâches, où un contrôleur de haut niveau est optimisé pour produire directement les intentions du moteur. Cela permet une exploration efficace – puisque des comportements cohérents sont produits, même avec des intentions motrices échantillonnées de manière aléatoire – et contraint la solution finale.
Coordination d’équipe émergente dans le football humanoïde
Le football a été un défi de longue date pour la recherche sur l'intelligence incarnée, nécessitant des compétences individuelles et un jeu d'équipe coordonné. Dans notre dernier travail, nous avons utilisé un NPMP comme préalable pour guider l’apprentissage des habiletés motrices.
Le résultat a été une équipe de joueurs qui ont progressé depuis l’apprentissage des compétences de poursuite du ballon jusqu’à finalement apprendre à se coordonner. Auparavant, dans un étude avec des modes de réalisation simples, nous avions montré que des comportements coordonnés peuvent émerger au sein d’équipes en compétition. Le NPMP nous a permis d’observer un effet similaire mais dans un scénario qui nécessitait un contrôle moteur nettement plus avancé.
Nos agents ont acquis des compétences telles que la locomotion agile, les dépassements et la division du travail, comme le démontre une série de statistiques, y compris les mesures utilisées dans analyses sportives du monde réel. Les joueurs font preuve à la fois d'un contrôle moteur agile à haute fréquence et d'une prise de décision à long terme qui implique l'anticipation des comportements de leurs coéquipiers, conduisant à un jeu d'équipe coordonné.
Manipulation du corps entier et tâches cognitives utilisant la vision
Apprendre à interagir avec des objets à l’aide des bras constitue un autre défi de contrôle difficile. Le NPMP peut également permettre ce type de manipulation du corps entier. Avec une petite quantité de données MoCap d'interaction avec les boîtes, nous sommes en mesure de former un agent à transporter une boîte d'un endroit à un autre, en utilisant une vision égocentrique et avec seulement un signal de récompense clairsemé :
De même, on peut apprendre à l’agent à attraper et lancer des balles :
Grâce à NPMP, nous pouvons également aborder tâches de labyrinthe impliquant la locomotion, la perception et la mémoire:
Contrôle sûr et efficace des robots du monde réel
Le NPMP peut également aider à contrôler de vrais robots. Avoir un comportement bien régularisé est essentiel pour des activités comme marcher sur des terrains accidentés ou manipuler des objets fragiles. Les mouvements saccadés peuvent endommager le robot lui-même ou son environnement, ou au moins vider sa batterie. Par conséquent, des efforts importants sont souvent investis dans la conception d’objectifs d’apprentissage qui permettent à un robot de faire ce que nous voulons tout en se comportant de manière sûre et efficace.
Comme alternative, nous avons étudié si l'utilisation priors dérivés du mouvement biologique peut nous donner des compétences de mouvement bien régularisées, d'apparence naturelle et réutilisables pour les robots à pattes, telles que marcher, courir et tourner, qui peuvent être déployées sur des robots du monde réel.
En commençant par les données MoCap provenant d'humains et de chiens, nous avons adapté l'approche NPMP pour former des compétences et des contrôleurs en simulation qui peuvent ensuite être déployés sur de vrais robots humanoïdes (OP3) et quadrupèdes (ANYmal B), respectivement. Cela a permis aux robots d'être dirigés par un utilisateur via un joystick ou de dribbler une balle vers un emplacement cible de manière naturelle et robuste.
Avantages de l'utilisation de primitives motrices probabilistes neuronales
En résumé, nous avons utilisé le modèle de compétences NPMP pour apprendre des tâches complexes avec des personnages humanoïdes dans des simulations et des robots du monde réel. Le NPMP regroupe les habiletés motrices de bas niveau de manière réutilisable, ce qui facilite l'apprentissage de comportements utiles qui seraient difficiles à découvrir par des essais et des erreurs non structurés. En utilisant la capture de mouvement comme source d’informations préalables, elle biaise l’apprentissage du contrôle moteur vers celui des mouvements naturalistes.
Le NPMP permet aux agents incarnés d'apprendre plus rapidement en utilisant RL ; apprendre des comportements plus naturalistes; apprendre des comportements plus sûrs, efficaces et stables adaptés à la robotique du monde réel ; et combiner le contrôle moteur de l'ensemble du corps avec des compétences cognitives à plus long terme, telles que le travail d'équipe et la coordination.
En apprendre plus sur notre travail: