Pour apprendre à un agent IA une nouvelle tâche, comme ouvrir une armoire de cuisine, les chercheurs ont souvent recours à l’apprentissage par renforcement – un processus d’essais et d’erreurs dans lequel l’agent est récompensé pour avoir pris des mesures qui le rapprochent de son objectif.
Dans de nombreux cas, un expert humain doit soigneusement concevoir une fonction de récompense, qui est un mécanisme d’incitation qui motive l’agent à explorer. L’expert humain doit mettre à jour cette fonction de récompense de manière itérative à mesure que l’agent explore et essaie différentes actions. Cela peut prendre du temps, être inefficace et difficile à étendre, en particulier lorsque la tâche est complexe et implique de nombreuses étapes.
Des chercheurs du MIT, de l'Université Harvard et de l'Université de Washington ont développé une nouvelle approche d'apprentissage par renforcement qui ne repose pas sur une fonction de récompense conçue par des experts. Au lieu de cela, il exploite les commentaires participatifs, recueillis auprès de nombreux utilisateurs non experts, pour guider l'agent dans son apprentissage pour atteindre son objectif.
Alors que d'autres méthodes tentent également d'utiliser les commentaires de non-experts, cette nouvelle approche permet à l'agent IA d'apprendre plus rapidement, malgré le fait que les données collectées auprès des utilisateurs sont souvent pleines d'erreurs. Ces données bruitées peuvent entraîner l’échec d’autres méthodes.
De plus, cette nouvelle approche permet de recueillir des commentaires de manière asynchrone, afin que les utilisateurs non experts du monde entier puissent contribuer à la formation de l'agent.
« Aujourd’hui, l’une des étapes les plus longues et les plus difficiles de la conception d’un agent robotique consiste à concevoir la fonction de récompense. Aujourd’hui, les fonctions de récompense sont conçues par des chercheurs experts – un paradigme qui n’est pas évolutif si nous voulons enseigner de nombreuses tâches différentes à nos robots. Notre travail propose un moyen d'étendre l'apprentissage des robots en externalisant la conception de la fonction de récompense et en permettant à des non-experts de fournir des commentaires utiles », explique Pulkit Agrawal, professeur adjoint au Département de génie électrique et d'informatique (EECS) du MIT qui dirige l'Improbable AI Lab du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL).
À l’avenir, cette méthode pourrait aider un robot à apprendre rapidement à effectuer des tâches spécifiques au domicile d’un utilisateur, sans que le propriétaire n’ait besoin de montrer au robot des exemples physiques de chaque tâche. Le robot pourrait explorer par lui-même, avec des commentaires non experts provenant du crowdsourcing guidant son exploration.
« Dans notre méthode, la fonction de récompense guide l’agent vers ce qu’il doit explorer, au lieu de lui dire exactement ce qu’il doit faire pour accomplir la tâche. Ainsi, même si la surveillance humaine est quelque peu imprécise et bruyante, l'agent est toujours capable d'explorer, ce qui l'aide à mieux apprendre », explique l'auteur principal Marcel Torne '23, assistant de recherche à l'Improbable AI Lab.
Torne est rejoint sur le journal par son conseiller du MIT, Agrawal ; auteur principal Abhishek Gupta, professeur adjoint à l'Université de Washington ; ainsi que d'autres à l'Université de Washington et au MIT. La recherche sera présentée lors de la conférence sur les systèmes de traitement de l'information neuronale le mois prochain.
Commentaires bruyants
Une façon de recueillir les commentaires des utilisateurs pour l'apprentissage par renforcement consiste à montrer à un utilisateur deux photos des états atteints par l'agent, puis à lui demander quel état est le plus proche d'un objectif. Par exemple, l’objectif d’un robot est peut-être d’ouvrir une armoire de cuisine. Une image pourrait montrer que le robot a ouvert l’armoire, tandis que la seconde pourrait montrer qu’il a ouvert le micro-ondes. Un utilisateur choisirait la photo du « meilleur » état.
Certaines approches précédentes tentent d'utiliser ce feedback binaire et participatif pour optimiser une fonction de récompense que l'agent utiliserait pour apprendre la tâche. Cependant, comme les non-experts sont susceptibles de commettre des erreurs, la fonction de récompense peut devenir très bruyante, de sorte que l'agent peut rester bloqué et ne jamais atteindre son objectif.
« Au fond, l’agent prendrait la fonction de récompense trop au sérieux. Il tenterait de correspondre parfaitement à la fonction de récompense. Ainsi, au lieu d’optimiser directement la fonction de récompense, nous l’utilisons simplement pour indiquer au robot les zones qu’il doit explorer », explique Torne.
Lui et ses collaborateurs ont découplé le processus en deux parties distinctes, chacune dirigée par son propre algorithme. Ils appellent leur nouvelle méthode d’apprentissage par renforcement HuGE (Human Guided Exploration).
D'un côté, un algorithme de sélection d'objectifs est continuellement mis à jour avec des commentaires humains issus du crowdsourcing. Le feedback n’est pas utilisé comme une fonction de récompense, mais plutôt pour guider l’exploration de l’agent. Dans un sens, les utilisateurs non experts abandonnent le fil d’Ariane qui conduit progressivement l’agent vers son objectif.
De l’autre côté, l’agent explore seul, de manière auto-supervisée et guidé par le sélecteur d’objectif. Il collecte des images ou des vidéos des actions qu'il tente, qui sont ensuite envoyées aux humains et utilisées pour mettre à jour le sélecteur d'objectifs.
Cela réduit la zone à explorer par l’agent, le conduisant vers des zones plus prometteuses et plus proches de son objectif. Mais s’il n’y a pas de feedback, ou si le feedback met du temps à arriver, l’agent continuera à apprendre tout seul, quoique de manière plus lente. Cela permet de recueillir des commentaires de manière peu fréquente et asynchrone.
« La boucle d’exploration peut continuer de manière autonome, car elle va simplement explorer et apprendre de nouvelles choses. Et puis, lorsque vous obtenez un meilleur signal, il va explorer de manière plus concrète. Vous pouvez simplement les laisser tourner à leur propre rythme », ajoute Torne.
Et comme les commentaires ne font que guider doucement le comportement de l'agent, celui-ci finira par apprendre à accomplir la tâche même si les utilisateurs fournissent des réponses incorrectes.
Apprentissage plus rapide
Les chercheurs ont testé cette méthode sur un certain nombre de tâches simulées et réelles. En simulation, ils ont utilisé HuGE pour apprendre efficacement des tâches comportant de longues séquences d’actions, comme empiler des blocs dans un ordre particulier ou naviguer dans un grand labyrinthe.
Lors de tests réels, ils ont utilisé HuGE pour entraîner des bras robotiques à dessiner la lettre « U » et à sélectionner et placer des objets. Pour ces tests, ils ont collecté les données de 109 utilisateurs non experts dans 13 pays différents répartis sur trois continents.
Dans le cadre d'expériences réelles et simulées, HuGE a aidé les agents à apprendre à atteindre leur objectif plus rapidement que d'autres méthodes.
Les chercheurs ont également constaté que les données provenant de non-experts produisaient de meilleures performances que les données synthétiques, produites et étiquetées par les chercheurs. Pour les utilisateurs non experts, l’étiquetage de 30 images ou vidéos prenait moins de deux minutes.
« Cela rend cette méthode très prometteuse en termes de possibilité d'étendre cette méthode », ajoute Torne.
Dans un article connexe, présenté par les chercheurs lors de la récente conférence sur l'apprentissage des robots, ils ont amélioré HuGE afin qu'un agent d'IA puisse apprendre à effectuer la tâche, puis réinitialiser l'environnement de manière autonome pour continuer à apprendre. Par exemple, si l’agent apprend à ouvrir une armoire, la méthode le guide également dans la fermeture de l’armoire.
« Nous pouvons désormais lui faire apprendre de manière totalement autonome sans avoir besoin de réinitialisation humaine », dit-il.
Les chercheurs soulignent également que, dans cette approche comme dans d’autres approches d’apprentissage, il est essentiel de garantir que les agents d’IA sont alignés sur les valeurs humaines.
À l’avenir, ils souhaitent continuer à perfectionner HuGE afin que l’agent puisse apprendre d’autres formes de communication, telles que le langage naturel et les interactions physiques avec le robot. Ils souhaitent également appliquer cette méthode pour former plusieurs agents à la fois.
Cette recherche est financée, en partie, par le MIT-IBM Watson AI Lab.