Votre liste de tâches quotidiennes est probablement assez simple : faire la vaisselle, faire l’épicerie et autres détails. Il est peu probable que vous ayez écrit « ramasser le premier plat sale » ou « laver cette assiette avec une éponge », car chacune de ces étapes miniatures de la corvée semble intuitive. Bien que nous puissions régulièrement réaliser chaque étape sans trop y réfléchir, un robot nécessite un plan complexe qui implique des contours plus détaillés.
L'Improbable AI Lab du MIT, un groupe du Laboratoire d'informatique et d'intelligence artificielle (CSAIL), a offert un coup de main à ces machines avec un nouveau cadre multimodal : Modèles de base compositionnels pour la planification hiérarchique (HiP), qui élabore des plans détaillés et réalisables avec l’expertise de trois modèles de fondations différents. À l'instar du GPT-4 d'OpenAI, le modèle de base sur lequel ChatGPT et Bing Chat ont été construits, ces modèles de base sont formés sur d'énormes quantités de données pour des applications telles que la génération d'images, la traduction de texte et la robotique.
Contrairement à RT2 et à d'autres modèles multimodaux qui sont formés sur des données appariées de vision, de langage et d'action, HiP utilise trois modèles de base différents, chacun formé sur des modalités de données différentes. Chaque modèle de fondation capture une partie différente du processus décisionnel et fonctionne ensuite ensemble lorsqu'il est temps de prendre des décisions. HiP supprime le besoin d’accéder à des données couplées sur la vision, le langage et l’action, ce qui est difficile à obtenir. HiP rend également le processus de raisonnement plus transparent.
Ce qui est considéré comme une tâche quotidienne pour un humain peut être un « objectif à long terme » d'un robot – un objectif primordial qui implique d'abord de réaliser de nombreuses petites étapes – nécessitant suffisamment de données pour planifier, comprendre et exécuter les objectifs. Alors que les chercheurs en vision par ordinateur ont tenté de créer des modèles de base monolithiques pour ce problème, l’association de données linguistiques, visuelles et d’action coûte cher. Au lieu de cela, HiP représente une recette multimodale différente : un trio qui intègre à moindre coût l’intelligence linguistique, physique et environnementale dans un robot.
« Les modèles de base ne doivent pas nécessairement être monolithiques », déclare Jim Fan, chercheur en IA chez NVIDIA, qui n'a pas participé à l'article. « Ce travail décompose la tâche complexe de la planification d'agents incarnés en trois modèles constitutifs : un raisonneur linguistique, un modèle du monde visuel et un planificateur d'action. Cela rend un problème de prise de décision difficile plus traitable et plus transparent.
L'équipe pense que leur système pourrait aider ces machines à accomplir des tâches ménagères, comme ranger un livre ou placer un bol dans le lave-vaisselle. De plus, HiP pourrait aider à réaliser des tâches de construction et de fabrication en plusieurs étapes, comme empiler et placer différents matériaux dans des séquences spécifiques.
Évaluation du HiP
L'équipe CSAIL a testé l'acuité de HiP sur trois tâches de manipulation, surpassant les frameworks comparables. Le système raisonne en développant des plans intelligents qui s’adaptent aux nouvelles informations.
Tout d’abord, les chercheurs lui ont demandé d’empiler des blocs de couleurs différentes les uns sur les autres, puis d’en placer d’autres à proximité. Le problème : certaines des couleurs correctes n'étaient pas présentes, le robot a donc dû placer des blocs blancs dans un bol de couleur pour les peindre. HiP s'est souvent adapté à ces changements avec précision, en particulier par rapport aux systèmes de planification de tâches de pointe tels que Transformer BC et Action Diffuser, en ajustant ses plans pour empiler et placer chaque carré selon les besoins.
Autre test : disposer des objets comme des bonbons et un marteau dans une boîte marron en ignorant les autres objets. Certains des objets à déplacer étaient sales, HiP a donc ajusté ses plans pour les placer dans une boîte de nettoyage, puis dans le conteneur marron. Dans une troisième démonstration, le robot a pu ignorer les objets inutiles pour atteindre les sous-objectifs de la cuisine, comme ouvrir un micro-ondes, dégager une bouilloire et allumer une lumière. Certaines des étapes demandées avaient déjà été effectuées, le robot s'est donc adapté en sautant ces directions.
Une hiérarchie à trois niveaux
Le processus de planification à trois volets de HiP fonctionne comme une hiérarchie, avec la possibilité de pré-entraîner chacun de ses composants sur différents ensembles de données, y compris des informations extérieures à la robotique. Au bas de cet ordre se trouve un grand modèle de langage (LLM), qui commence à créer des idées en capturant toutes les informations symboliques nécessaires et en développant un plan de tâches abstrait. En appliquant les connaissances de bon sens trouvées sur Internet, le modèle divise son objectif en sous-objectifs. Par exemple, « préparer une tasse de thé » se transforme en « remplir une casserole d’eau », « faire bouillir la casserole » et les actions ultérieures requises.
« Tout ce que nous voulons, c'est prendre des modèles pré-entraînés existants et les faire s'interfacer avec succès les uns aux autres », explique Anurag Ajay, doctorant au Département de génie électrique et d'informatique (EECS) du MIT et affilié au CSAIL. « Au lieu de privilégier un seul modèle pour tout faire, nous en combinons plusieurs qui exploitent différentes modalités de données Internet. Lorsqu’ils sont utilisés en tandem, ils facilitent la prise de décision robotique et peuvent potentiellement faciliter les tâches dans les maisons, les usines et les chantiers de construction.
Ces modèles ont également besoin d'une certaine forme d'« yeux » pour comprendre l'environnement dans lequel ils évoluent et exécuter correctement chaque sous-objectif. L'équipe a utilisé un grand modèle de diffusion vidéo pour compléter la planification initiale réalisée par le LLM, qui collecte des informations géométriques et physiques sur le monde à partir d'images diffusées sur Internet. À son tour, le modèle vidéo génère un plan de trajectoire d'observation, affinant les grandes lignes du LLM pour intégrer de nouvelles connaissances physiques.
Ce processus, connu sous le nom de raffinement itératif, permet à HiP de raisonner sur ses idées, en prenant en compte les commentaires à chaque étape pour générer un plan plus pratique. Le flux de commentaires est similaire à la rédaction d'un article, où un auteur peut envoyer son brouillon à un éditeur, et avec ces révisions incorporées, l'éditeur examine les dernières modifications et finalise.
Dans ce cas, le sommet de la hiérarchie est un modèle d’action égocentrique, ou une séquence d’images à la première personne qui déduisent quelles actions doivent avoir lieu en fonction de son environnement. Au cours de cette étape, le plan d'observation du modèle vidéo est cartographié sur l'espace visible par le robot, aidant ainsi la machine à décider comment exécuter chaque tâche dans le cadre de l'objectif à long terme. Si un robot utilise HiP pour préparer du thé, cela signifie qu'il aura cartographié exactement l'emplacement du pot, de l'évier et d'autres éléments visuels clés et qu'il commencera à atteindre chaque sous-objectif.
Néanmoins, le travail multimodal est limité par le manque de modèles de base vidéo de haute qualité. Une fois disponibles, ils pourraient s'interfacer avec les modèles vidéo à petite échelle de HiP pour améliorer encore la prédiction de séquences visuelles et la génération d'actions de robot. Une version de meilleure qualité réduirait également les besoins actuels en données des modèles vidéo.
Cela étant dit, l’approche de l’équipe CSAIL n’a utilisé globalement qu’une infime partie de données. De plus, la formation de HiP était peu coûteuse et démontrait le potentiel de l’utilisation de modèles de base facilement disponibles pour accomplir des tâches à long terme. « Ce qu'Anurag a démontré est une preuve de concept de la façon dont nous pouvons prendre des modèles formés sur des tâches et des modalités de données distinctes et les combiner en modèles pour la planification robotique. À l’avenir, HiP pourrait être complété par des modèles pré-entraînés capables de traiter le toucher et le son pour élaborer de meilleurs plans », déclare l’auteur principal Pulkit Agrawal, professeur adjoint au MIT à l’EECS et directeur de l’Improbable AI Lab. Le groupe envisage également d’appliquer HiP à la résolution de tâches réelles à long terme en robotique.
Ajay et Agrawal sont les principaux auteurs d'un papier décrivant le travail. Ils sont rejoints par les professeurs du MIT et les chercheurs principaux du CSAIL, Tommi Jaakkola, Joshua Tenenbaum et Leslie Pack Kaelbling ; Akash Srivastava, affilié de recherche CSAIL et directeur de recherche du MIT-IBM AI Lab ; les étudiants diplômés Seungwook Han et Yilun Du '19 ; l'ancien postdoctorant Abhishek Gupta, aujourd'hui professeur adjoint à l'Université de Washington ; et ancien étudiant diplômé Shuang Li PhD '23.
Les travaux de l'équipe ont été soutenus, en partie, par la National Science Foundation, la US Defense Advanced Research Projects Agency, le US Army Research Office, le US Office of Naval Research Multidgraduate University Research Initiatives et le MIT-IBM Watson AI Lab. Leurs résultats ont été présentés lors de la conférence 2023 sur les systèmes de traitement de l'information neuronale (NeurIPS).