Recherche
Les humains sont une espèce interactive. Nous interagissons avec le monde physique et les uns avec les autres. Pour que l’intelligence artificielle (IA) soit généralement utile, elle doit être capable d’interagir efficacement avec les humains et leur environnement. Dans ce travail, nous présentons l'agent interactif multimodal (MIA), qui allie perception visuelle, compréhension et production du langage, navigation et manipulation pour s'engager dans des interactions physiques et linguistiques étendues et souvent surprenantes avec les humains.
Nous nous appuyons sur l'approche introduite par Abramson et al. (2020), qui utilise principalement l’apprentissage par imitation pour former les agents. Après la formation, MIA affiche un comportement intelligent rudimentaire que nous espérons affiner plus tard grâce aux commentaires humains. Ce travail se concentre sur la création de cet a priori comportemental intelligent, et nous laissons un apprentissage ultérieur basé sur le feedback pour des travaux futurs.
Nous avons créé l'environnement Playhouse, un environnement virtuel 3D composé d'un ensemble aléatoire de pièces et d'un grand nombre d'objets domestiques interactifs, afin de fournir un espace et un cadre permettant aux humains et aux agents d'interagir ensemble. Les humains et les agents peuvent interagir dans le Playhouse en contrôlant des robots virtuels qui se déplacent, manipulent des objets et communiquent par texte. Cet environnement virtuel permet un large éventail de dialogues situés, allant des instructions simples (par exemple, « Veuillez ramasser le livre par terre et placez-le sur l'étagère bleue ») au jeu créatif (par exemple, « Apportez de la nourriture à table pour que nous pouvons manger »).
Nous avons collecté des exemples humains d'interactions Playhouse à l'aide de jeux de langage, un ensemble d'indices incitant les humains à improviser certains comportements. Dans un jeu de langage, un joueur (le passeur) reçoit une invite pré-écrite indiquant un type de tâche à proposer à l'autre joueur (le solveur). Par exemple, le passeur pourrait recevoir l'invite « Posez à l'autre joueur une question sur l'existence d'un objet », et après quelques explorations, le passeur pourrait demander : « S'il vous plaît, dites-moi s'il y a un canard bleu dans une pièce qui le fait. pas également de meubles.'' Pour garantir une diversité comportementale suffisante, nous avons également inclus des invites de forme libre, qui donnaient aux poseurs le libre choix d'improviser les interactions (par exemple, « Maintenant, prenez n'importe quel objet que vous aimez et frappez la balle de tennis du tabouret pour que il roule près de l'horloge, ou quelque part à proximité.''). Au total, nous avons collecté 2,94 années d’interactions humaines en temps réel dans le Playhouse.
Notre stratégie de formation est une combinaison de prédiction supervisée des actions humaines (clonage comportemental) et d'apprentissage auto-supervisé. Lors de la prédiction des actions humaines, nous avons constaté que l’utilisation d’une stratégie de contrôle hiérarchique améliorait considérablement les performances des agents. Dans ce contexte, l'agent reçoit de nouvelles observations environ 4 fois par seconde. Pour chaque observation, il produit une séquence d'actions de mouvement en boucle ouverte et émet éventuellement une séquence d'actions de langage. En plus du clonage comportemental, nous utilisons une forme d'apprentissage auto-supervisé, qui charge les agents de classer si certaines entrées visuelles et linguistiques appartiennent au même épisode ou à des épisodes différents.
Pour évaluer les performances des agents, nous avons demandé à des participants humains d'interagir avec les agents et de fournir un retour binaire indiquant si l'agent avait exécuté avec succès une instruction. MIA atteint un taux de réussite de plus de 70 % dans les interactions en ligne évaluées par des humains, ce qui représente 75 % du taux de réussite que les humains eux-mêmes obtiennent lorsqu'ils jouent en tant que solveurs. Pour mieux comprendre le rôle des différents composants du MIA, nous avons effectué une série d'ablations, supprimant, par exemple, les entrées visuelles ou linguistiques, la perte auto-supervisée ou le contrôle hiérarchique.
La recherche contemporaine sur l'apprentissage automatique a découvert des régularités remarquables de performance par rapport à différents paramètres d'échelle ; en particulier, les performances du modèle évoluent sous la forme d'une loi de puissance avec la taille de l'ensemble de données, la taille du modèle et le calcul. Ces effets ont été plus clairement observés dans le domaine du langage, caractérisé par des ensembles de données de taille massive et des architectures et protocoles de formation très évolués. Dans ce travail, cependant, nous sommes dans un régime résolument différent – avec des ensembles de données relativement petits et des fonctions objectives multimodales et multitâches formant des architectures hétérogènes. Néanmoins, nous démontrons des effets clairs de la mise à l’échelle : à mesure que nous augmentons la taille de l’ensemble de données et du modèle, les performances augmentent sensiblement.
Dans un cas idéal, la formation devient plus efficace étant donné un ensemble de données raisonnablement volumineux, à mesure que les connaissances sont transférées entre les expériences. Pour déterminer à quel point nos circonstances sont idéales, nous avons examiné la quantité de données nécessaires pour apprendre à interagir avec un nouvel objet inédit et pour apprendre à suivre une nouvelle commande/verbe inédit. Nous avons divisé nos données en données de fond et données impliquant une instruction linguistique faisant référence à l'objet ou au verbe. Lorsque nous avons réintroduit les données relatives au nouvel objet, nous avons constaté que moins de 12 heures d'interaction humaine suffisaient pour acquérir les performances du plafond. De manière analogue, lorsque nous avons introduit la nouvelle commande ou verbe « effacer » (c'est-à-dire retirer tous les objets d'une surface), nous avons constaté qu'une seule heure de démonstrations humaines suffisait pour atteindre le plafond de performance dans les tâches impliquant ce mot.
MIA présente des comportements étonnamment riches, y compris une diversité de comportements qui n'ont pas été préconçus par les chercheurs, notamment ranger une pièce, trouver plusieurs objets spécifiés et poser des questions de clarification lorsqu'une instruction est ambiguë. Ces interactions nous inspirent continuellement. Cependant, le caractère ouvert du comportement de MIA présente d'immenses défis pour l'évaluation quantitative. Le développement de méthodologies complètes pour capturer et analyser les comportements ouverts dans les interactions homme-agent sera un objectif important de nos travaux futurs.
Pour une description plus détaillée de notre travail, consultez notre papier.