Imaginez un robot ressemblant à du slime qui peut changer de forme de manière transparente pour se faufiler dans des espaces étroits, qui pourrait être déployé à l'intérieur du corps humain pour éliminer un objet indésirable.
Bien qu'un tel robot n'existe pas encore en dehors d'un laboratoire, les chercheurs travaillent au développement de robots logiciels reconfigurables pour des applications dans les soins de santé, les appareils portables et les systèmes industriels.
Mais comment contrôler un robot spongieux qui n'a pas d'articulations, de membres ou de doigts pouvant être manipulés, et qui peut au contraire modifier radicalement sa forme à volonté ? Les chercheurs du MIT s’efforcent de répondre à cette question.
Ils ont développé un algorithme de contrôle capable d'apprendre de manière autonome comment déplacer, étirer et façonner un robot reconfigurable pour accomplir une tâche spécifique, même lorsque cette tâche nécessite que le robot change de morphologie plusieurs fois. L’équipe a également construit un simulateur pour tester les algorithmes de contrôle des robots mous déformables sur une série de tâches difficiles et changeantes.
Leur méthode a permis de réaliser chacune des huit tâches évaluées tout en surpassant les autres algorithmes. La technique a particulièrement bien fonctionné sur des tâches à multiples facettes. Par exemple, lors d'un test, le robot a dû réduire sa hauteur tout en développant deux petites jambes pour se faufiler dans un tuyau étroit, puis défaire ces jambes et étendre son torse pour ouvrir le couvercle du tuyau.
Alors que les robots logiciels reconfigurables en sont encore à leurs balbutiements, une telle technique pourrait un jour permettre à des robots polyvalents capables d’adapter leurs formes pour accomplir diverses tâches.
« Quand les gens pensent aux robots souples, ils ont tendance à penser à des robots élastiques, mais qui reprennent leur forme originale. Notre robot est comme du slime et peut réellement changer de morphologie. Il est très frappant que notre méthode ait si bien fonctionné parce que nous avons affaire à quelque chose de très nouveau », déclare Boyuan Chen, étudiant diplômé en génie électrique et informatique (EECS) et co-auteur d'un ouvrage. article sur cette approche.
Les co-auteurs de Chen incluent l'auteur principal Suning Huang, étudiant de premier cycle à l'Université Tsinghua en Chine qui a réalisé ce travail alors qu'il était étudiant invité au MIT ; Huazhe Xu, professeur adjoint à l'Université Tsinghua ; et l'auteur principal Vincent Sitzmann, professeur adjoint d'EECS au MIT qui dirige le groupe de représentation de scène au laboratoire d'informatique et d'intelligence artificielle. La recherche sera présentée à la Conférence internationale sur les représentations de l'apprentissage.
Contrôler le mouvement dynamique
Les scientifiques apprennent souvent aux robots à accomplir des tâches en utilisant une approche d’apprentissage automatique connue sous le nom d’apprentissage par renforcement, qui est un processus d’essais et d’erreurs dans lequel le robot est récompensé pour les actions qui le rapprochent d’un objectif.
Cela peut être efficace lorsque les pièces mobiles du robot sont cohérentes et bien définies, comme une pince à trois doigts. Avec une pince robotique, un algorithme d'apprentissage par renforcement peut déplacer légèrement un doigt, apprenant par essais et erreurs si ce mouvement lui vaut une récompense. Ensuite, on passait au doigt suivant, et ainsi de suite.
Mais les robots qui changent de forme, contrôlés par des champs magnétiques, peuvent écraser, plier ou allonger dynamiquement tout leur corps.
« Un tel robot pourrait avoir des milliers de petits morceaux de muscle à contrôler, il est donc très difficile à apprendre de manière traditionnelle », explique Chen.
Pour résoudre ce problème, lui et ses collaborateurs ont dû y réfléchir différemment. Plutôt que de déplacer chaque petit muscle individuellement, leur algorithme d’apprentissage par renforcement commence par apprendre à contrôler des groupes de muscles adjacents qui travaillent ensemble.
Ensuite, après que l’algorithme a exploré l’espace des actions possibles en se concentrant sur des groupes de muscles, il approfondit les détails pour optimiser la politique ou le plan d’action qu’il a appris. De cette manière, l’algorithme de contrôle suit une méthodologie grossière à fine.
« De grossier à fin signifie que lorsque vous effectuez une action aléatoire, cette action aléatoire est susceptible de faire une différence. Le changement dans le résultat est probablement très important car vous contrôlez grossièrement plusieurs muscles en même temps », explique Sitzmann.
Pour ce faire, les chercheurs traitent l'espace d'action d'un robot, ou la façon dont il peut se déplacer dans une certaine zone, comme une image.
Leur modèle d'apprentissage automatique utilise des images de l'environnement du robot pour générer un espace d'action 2D, qui inclut le robot et la zone qui l'entoure. Ils simulent le mouvement du robot en utilisant ce que l'on appelle la méthode du point matériel, où l'espace d'action est couvert de points, comme les pixels de l'image, et recouvert d'une grille.
De la même manière que les pixels proches d’une image sont liés (comme les pixels qui forment un arbre sur une photo), ils ont construit leur algorithme pour comprendre que les points d’action proches ont des corrélations plus fortes. Les points autour de « l'épaule » du robot se déplaceront de la même manière lorsqu'il change de forme, tandis que les points sur la « jambe » du robot se déplaceront également de la même manière, mais d'une manière différente que ceux sur « l'épaule ».
De plus, les chercheurs utilisent le même modèle d’apprentissage automatique pour observer l’environnement et prédire les actions que le robot devrait entreprendre, ce qui le rend plus efficace.
Construire un simulateur
Après avoir développé cette approche, les chercheurs avaient besoin d’un moyen de la tester. Ils ont donc créé un environnement de simulation appelé DittoGym.
DittoGym propose huit tâches qui évaluent la capacité d'un robot reconfigurable à changer de forme de manière dynamique. Dans l’un d’entre eux, le robot doit allonger et courber son corps afin de pouvoir contourner les obstacles pour atteindre un point cible. Dans un autre, il doit changer de forme pour imiter les lettres de l'alphabet.
« Notre sélection de tâches dans DittoGym suit à la fois les principes génériques de conception de référence d’apprentissage par renforcement et les besoins spécifiques des robots reconfigurables. Chaque tâche est conçue pour représenter certaines propriétés que nous jugeons importantes, telles que la capacité de naviguer dans des explorations à long horizon, la capacité d'analyser l'environnement et d'interagir avec des objets externes », explique Huang. « Nous pensons qu'ensemble, ils peuvent donner aux utilisateurs une compréhension globale de la flexibilité des robots reconfigurables et de l'efficacité de notre programme d'apprentissage par renforcement. »
Leur algorithme surpassait les méthodes de base et constituait la seule technique adaptée à la réalisation de tâches en plusieurs étapes nécessitant plusieurs changements de forme.
« Nous avons une corrélation plus forte entre les points d'action qui sont plus proches les uns des autres, et je pense que c'est la clé pour que cela fonctionne si bien », explique Chen.
Même s'il faudra peut-être de nombreuses années avant que des robots qui changent de forme soient déployés dans le monde réel, Chen et ses collaborateurs espèrent que leurs travaux inspireront d'autres scientifiques non seulement à étudier des robots mous reconfigurables, mais également à réfléchir à l'exploitation des espaces d'action 2D pour d'autres problèmes de contrôle complexes.