La récompense est la force motrice des agents d’apprentissage par renforcement (RL). Compte tenu de son rôle central dans RL, la récompense est souvent supposée être suffisamment générale dans son expressivité, comme le résume l'hypothèse de récompense de Sutton et Littman :
Dans notre travail, nous faisons les premiers pas vers une étude systématique de cette hypothèse. Pour ce faire, nous considérons l’expérience de pensée suivante impliquant Alice, une designer, et Bob, un agent d’apprentissage :
Nous supposons qu'Alice pense à une tâche qu'elle aimerait que Bob apprenne à résoudre – cette tâche pourrait prendre la forme d'une description en langage naturel (« équilibrer ce pôle »), d'un état de choses imaginé (« atteindre l'une des configurations gagnantes de un échiquier »), ou quelque chose de plus traditionnel comme une fonction de récompense ou de valeur. Nous imaginons ensuite qu'Alice traduit son choix de tâche en un générateur qui fournira un signal d'apprentissage (comme une récompense) à Bob (un agent apprenant), qui apprendra de ce signal tout au long de sa vie. Nous fondons ensuite notre étude de l'hypothèse de la récompense en abordant la question suivante : étant donné le choix de tâche d'Alice, existe-t-il toujours une fonction de récompense qui peut transmettre cette tâche à Bob ?
Qu'est-ce qu'une tâche ?
Pour rendre concrète notre étude de cette question, nous nous limitons d’abord à trois types de tâches. En particulier, nous introduisons trois types de tâches qui, selon nous, capturent des types de tâches raisonnables : 1) Un ensemble de politiques acceptables (SOAP), 2) Un ordre politique (PO) et 3) Un ordre de trajectoire (TO). Ces trois formes de tâches représentent des exemples concrets des types de tâches que nous pourrions souhaiter qu’un agent apprenne à résoudre.
Nous étudions ensuite si la récompense est capable de capturer chacun de ces types de tâches dans des environnements finis. Fondamentalement, nous concentrons notre attention uniquement sur les fonctions de récompense de Markov ; par exemple, étant donné un espace d'état suffisant pour former une tâche telle que des paires (x, y) dans un monde en grille, existe-t-il une fonction de récompense qui dépend uniquement de ce même espace d'état et qui peut capturer la tâche ?
Premier résultat principal
Notre premier résultat principal montre que pour chacun des trois types de tâches, il existe des paires environnement-tâche pour lesquelles il n’existe pas de fonction de récompense de Markov capable de capturer la tâche. Un exemple d’une telle paire est la tâche « faire le tour complet de la grille dans le sens des aiguilles d’une montre ou dans le sens inverse » dans un monde de grille typique :
Cette tâche est naturellement capturée par un SOAP qui se compose de deux politiques acceptables : la politique « dans le sens des aiguilles d'une montre » (en bleu) et la politique « dans le sens inverse des aiguilles d'une montre » (en violet). Pour qu’une fonction de récompense markovienne puisse exprimer cette tâche, elle devrait donner à ces deux politiques une valeur strictement supérieure à toutes les autres politiques déterministes. Cependant, une telle fonction de récompense de Markov n’existe pas : l’optimalité d’une seule action « se déplacer dans le sens des aiguilles d’une montre » dépendra du fait que l’agent se soit déjà déplacé dans cette direction dans le passé. Puisque la fonction de récompense doit être markovienne, elle ne peut pas transmettre ce type d’information. Des exemples similaires démontrent que la récompense markovienne ne peut pas non plus capturer chaque ordre politique et chaque ordre de trajectoire.
Deuxième résultat principal
Étant donné que certaines tâches peuvent être capturées et d’autres non, nous explorons ensuite s’il existe une procédure efficace pour déterminer si une tâche donnée peut être capturée par récompense dans un environnement donné. De plus, s’il existe une fonction de récompense qui capture la tâche donnée, nous aimerions idéalement pouvoir générer une telle fonction de récompense. Notre deuxième résultat est un résultat positif qui dit que pour toute paire environnement-tâche finie, il existe une procédure qui peut 1) décider si la tâche peut être capturée par la récompense de Markov dans l'environnement donné, et 2) générer la fonction de récompense souhaitée qui transmet exactement la tâche, lorsqu'une telle fonction existe.
Ce travail établit des premières pistes pour comprendre la portée de l’hypothèse de la récompense, mais il reste encore beaucoup à faire pour généraliser ces résultats au-delà des environnements finis, des récompenses markoviennes et des notions simples de « tâche » et d’« expressivité ». Nous espérons que ce travail fournira de nouvelles perspectives conceptuelles sur la récompense et sa place dans l'apprentissage par renforcement.