Qu’il s’agisse d’essuyer des déversements ou de servir de la nourriture, les robots apprennent à effectuer des tâches ménagères de plus en plus complexes. Beaucoup de ces stagiaires en robots domestiques apprennent par imitation ; ils sont programmés pour copier les mouvements par lesquels un humain les guide physiquement.
Il s’avère que les robots sont d’excellents imitateurs. Mais à moins que les ingénieurs ne les programment également pour s'adapter à tous les chocs et coups de pouce possibles, les robots ne savent pas nécessairement comment gérer ces situations, à moins de commencer leur tâche par le haut.
Les ingénieurs du MIT visent désormais à donner aux robots un peu de bon sens lorsqu'ils sont confrontés à des situations qui les poussent hors de leur chemin d'apprentissage. Ils ont développé une méthode qui relie les données de mouvement du robot aux « connaissances de bon sens » des grands modèles de langage, ou LLM.
Leur approche permet à un robot d'analyser logiquement de nombreuses tâches ménagères données en sous-tâches et de s'adapter physiquement aux perturbations au sein d'une sous-tâche afin que le robot puisse continuer sans avoir à revenir en arrière et recommencer une tâche à partir de zéro – et sans que les ingénieurs aient à programmer explicitement. des correctifs pour chaque échec possible en cours de route.
« L’apprentissage par imitation est une approche courante permettant d’exploiter les robots domestiques. Mais si un robot imite aveuglément les trajectoires de mouvement d'un humain, de minuscules erreurs peuvent s'accumuler et éventuellement faire dérailler le reste de l'exécution », explique Yanwei Wang, étudiant diplômé au Département de génie électrique et d'informatique (EECS) du MIT. « Grâce à notre méthode, un robot peut auto-corriger les erreurs d'exécution et améliorer la réussite globale de la tâche. »
Wang et ses collègues détaillent leur nouvelle approche dans une étude qu'ils présenteront à la Conférence internationale sur les représentations d'apprentissage (ICLR) en mai. Les co-auteurs de l'étude comprennent les étudiants diplômés de l'EECS, Tsun-Hsuan Wang et Jiayuan Mao, Michael Hagenow, postdoctorant au Département d'aéronautique et d'astronautique du MIT (AeroAstro), et Julie Shah, professeure HN Slater en aéronautique et astronautique au MIT.
Tâche linguistique
Les chercheurs illustrent leur nouvelle approche par une tâche simple : ramasser des billes dans un bol et les verser dans un autre. Pour accomplir cette tâche, les ingénieurs déplacent généralement un robot en effectuant des mouvements de ramassage et de versement, le tout sur une seule trajectoire fluide. Ils pourraient le faire plusieurs fois, pour donner au robot un certain nombre de démonstrations humaines à imiter.
« Mais la démonstration humaine est une trajectoire longue et continue », explique Wang.
L’équipe a réalisé que, même si un humain peut démontrer une seule tâche en une seule fois, cette tâche dépend d’une séquence de sous-tâches, ou trajectoires. Par exemple, le robot doit d’abord mettre la main dans un bol avant de pouvoir ramasser, et il doit ramasser des billes avant de se déplacer vers le bol vide, et ainsi de suite. Si un robot est poussé ou poussé à commettre une erreur au cours de l'une de ces sous-tâches, son seul recours est de s'arrêter et de recommencer depuis le début, à moins que les ingénieurs n'étiquetent explicitement chaque sous-tâche et programme ou rassemblent de nouvelles démonstrations pour que le robot puisse récupérer de l'erreur. cet échec, pour permettre à un robot de s'auto-corriger sur le moment.
« Ce niveau de planification est très fastidieux », explique Wang.
Au lieu de cela, lui et ses collègues ont découvert qu’une partie de ce travail pouvait être effectuée automatiquement par les LLM. Ces modèles d'apprentissage profond traitent d'immenses bibliothèques de textes, qu'ils utilisent pour établir des liens entre les mots, les phrases et les paragraphes. Grâce à ces connexions, un LLM peut ensuite générer de nouvelles phrases en fonction de ce qu'il a appris sur le type de mot susceptible de suivre la précédente.
De leur côté, les chercheurs ont découvert qu'en plus des phrases et des paragraphes, un LLM peut être invité à produire une liste logique de sous-tâches qui seraient impliquées dans une tâche donnée. Par exemple, si on lui demande d'énumérer les actions impliquées dans le ramassage des billes d'un bol dans un autre, un LLM pourrait produire une séquence de verbes tels que « atteindre », « ramasser », « transporter » et « verser ».
« Les LLM ont un moyen de vous expliquer comment effectuer chaque étape d'une tâche, en langage naturel. La démonstration continue d'un humain est l'incarnation de ces étapes, dans l'espace physique », explique Wang. « Et nous voulions connecter les deux, afin qu'un robot sache automatiquement à quelle étape il se trouve dans une tâche et soit capable de replanifier et de récupérer par lui-même. »
Cartographie des billes
Pour leur nouvelle approche, l'équipe a développé un algorithme permettant de connecter automatiquement l'étiquette en langage naturel d'un LLM pour une sous-tâche particulière à la position d'un robot dans l'espace physique ou à une image qui code l'état du robot. La cartographie des coordonnées physiques d'un robot, ou d'une image de l'état du robot, sur une étiquette en langage naturel est connue sous le nom de « mise à la terre ». Le nouvel algorithme de l'équipe est conçu pour apprendre un « classificateur », ce qui signifie qu'il apprend à identifier automatiquement la sous-tâche sémantique dans laquelle se trouve un robot – par exemple, « atteindre » par rapport à « scoop » – compte tenu de ses coordonnées physiques ou d'une vue d'image.
« Le classificateur de mise à la terre facilite ce dialogue entre ce que fait le robot dans l'espace physique et ce que le LLM sait des sous-tâches, ainsi que les contraintes auxquelles vous devez prêter attention au sein de chaque sous-tâche », explique Wang.
L’équipe a démontré cette approche lors d’expériences avec un bras robotique qu’elle a entraîné sur une tâche de ramassage de billes. Les expérimentateurs ont formé le robot en le guidant physiquement dans la tâche consistant à atteindre d'abord un bol, à ramasser des billes, à les transporter sur un bol vide et à les verser dedans. Après quelques démonstrations, l'équipe a ensuite utilisé un LLM pré-entraîné et a demandé au modèle pour énumérer les étapes nécessaires au ramassage des billes d'un bol à un autre. Les chercheurs ont ensuite utilisé leur nouvel algorithme pour relier les sous-tâches définies du LLM aux données de trajectoire de mouvement du robot. L'algorithme a automatiquement appris à mapper les coordonnées physiques du robot dans les trajectoires et la vue d'image correspondante à une sous-tâche donnée.
L’équipe a ensuite laissé le robot effectuer lui-même la tâche de ramassage, en utilisant les classificateurs de mise à la terre nouvellement appris. Au fur et à mesure que le robot avançait dans les étapes de la tâche, les expérimentateurs ont poussé et poussé le robot hors de sa trajectoire et ont fait tomber des billes de sa cuillère à différents endroits. Plutôt que de s'arrêter et de recommencer depuis le début, ou de continuer aveuglément sans billes sur sa cuillère, le robot a pu s'auto-corriger et a terminé chaque sous-tâche avant de passer à la suivante. (Par exemple, il s'assurerait d'avoir réussi à ramasser les billes avant de les transporter vers le bol vide.)
« Avec notre méthode, lorsque le robot fait des erreurs, nous n'avons pas besoin de demander à des humains de programmer ou de faire des démonstrations supplémentaires sur la façon de se remettre d'une panne », explique Wang. «C'est très excitant, car des efforts considérables sont actuellement déployés pour former des robots domestiques à l'aide de données collectées sur des systèmes de téléopération. Notre algorithme peut désormais convertir ces données d’entraînement en un comportement de robot robuste, capable d’effectuer des tâches complexes, malgré les perturbations externes.