Pour former les agents à bien interagir avec les humains, nous devons être capables de mesurer les progrès. Mais l’interaction humaine est complexe et il est difficile de mesurer les progrès. Dans ce travail, nous avons développé une méthode, appelée Suite de Tests Standardisés (STS), pour évaluer des agents dans des interactions multimodales temporellement étendues. Nous avons examiné les interactions consistant en des participants humains demandant à des agents d'effectuer des tâches et de répondre à des questions dans un environnement simulé en 3D.
La méthodologie STS place les agents dans un ensemble de scénarios comportementaux extraits de données réelles d'interaction humaine. Les agents voient le contexte d'un scénario rejoué, reçoivent une instruction, puis ont le contrôle pour terminer l'interaction hors ligne. Ces suites d'agents sont enregistrées puis envoyées à des évaluateurs humains pour les annoter comme succès ou échec. Les agents sont ensuite classés selon la proportion de scénarios sur lesquels ils réussissent.
De nombreux comportements qui sont une seconde nature chez les humains dans nos interactions quotidiennes sont difficiles à mettre en mots et impossibles à formaliser. Ainsi, le mécanisme utilisé pour résoudre des jeux (comme Atari, Go, DotA et Starcraft) avec apprentissage par renforcement ne fonctionnera pas lorsque nous essayons d'apprendre aux agents à avoir des interactions fluides et réussies avec les humains. Par exemple, réfléchissez à la différence entre ces deux questions : « Qui a gagné cette partie de Go ? » versus « Qu'est-ce que tu regardes ? » Dans le premier cas, on peut écrire un morceau de code informatique qui compte les pierres sur le plateau à la fin de la partie et détermine le gagnant avec certitude. Dans le second cas, nous ne savons pas comment codifier cela : la réponse peut dépendre des locuteurs, de la taille et de la forme des objets impliqués, du fait que le locuteur plaisante ou non, et d’autres aspects du contexte dans lequel l’énoncé est prononcé. Les humains comprennent intuitivement la myriade de facteurs pertinents impliqués dans la réponse à cette question apparemment banale.
L'évaluation interactive par des participants humains peut servir de pierre de touche pour comprendre les performances des agents, mais cela est bruyant et coûteux. Il est difficile de contrôler les instructions exactes que les humains donnent aux agents lorsqu’ils interagissent avec eux à des fins d’évaluation. Ce type d’évaluation s’effectue également en temps réel, il est donc trop lent pour pouvoir s’y fier pour progresser rapidement. Les travaux antérieurs se sont appuyés sur des proxys pour une évaluation interactive. Les proxys, tels que les pertes et les tâches de sonde scriptées (par exemple « soulever le x » où x est sélectionné au hasard dans l'environnement et la fonction de réussite est minutieusement conçue à la main), sont utiles pour obtenir rapidement un aperçu des agents, mais ne sont pas réellement corrélés. cela bien avec une évaluation interactive. Notre nouvelle méthode présente des avantages, notamment en offrant contrôle et rapidité à une métrique qui correspond étroitement à notre objectif ultime : créer des agents qui interagissent bien avec les humains.
Le développement de MNIST, ImageNet et d’autres ensembles de données annotés par l’homme a été essentiel au progrès de l’apprentissage automatique. Ces ensembles de données ont permis aux chercheurs de former et d'évaluer des modèles de classification pour un coût unique en intrants humains. La méthodologie STS vise à faire de même pour la recherche sur les interactions homme-agent. Cette méthode d'évaluation nécessite toujours que les humains annotent les continuations des agents ; cependant, les premières expériences suggèrent que l'automatisation de ces annotations pourrait être possible, ce qui permettrait une évaluation automatisée rapide et efficace des agents interactifs. En attendant, nous espérons que d’autres chercheurs pourront utiliser la méthodologie et la conception du système pour accélérer leurs propres recherches dans ce domaine.