L’apprentissage par renforcement (RL) a fait d’énormes progrès ces dernières années pour résoudre des problèmes réels – et l’apprentissage par renforcement hors ligne l’a rendu encore plus pratique. Au lieu d’interactions directes avec l’environnement, nous pouvons désormais entraîner de nombreux algorithmes à partir d’un seul ensemble de données préenregistrées. Cependant, nous perdons les avantages pratiques en matière d'efficacité des données du RL hors ligne lorsque nous évaluons les politiques en vigueur.
Par exemple, lors de la formation de manipulateurs robotiques, les ressources du robot sont généralement limitées, et la formation de nombreuses politiques par RL hors ligne sur un seul ensemble de données nous donne un avantage considérable en termes d'efficacité des données par rapport à RL en ligne. L’évaluation de chaque politique est un processus coûteux, qui nécessite d’interagir des milliers de fois avec le robot. Lorsque nous choisissons le meilleur algorithme, les hyperparamètres et un certain nombre d’étapes de formation, le problème devient rapidement insoluble.
Pour rendre RL plus applicable aux applications du monde réel comme la robotique, nous proposons d'utiliser une procédure d'évaluation intelligente pour sélectionner la politique à déployer, appelée sélection de politique active hors ligne (A-OPS). Dans A-OPS, nous utilisons l'ensemble de données préenregistrées et autorisons des interactions limitées avec l'environnement réel pour améliorer la qualité de la sélection.
Pour minimiser les interactions avec l'environnement réel, nous mettons en œuvre trois fonctionnalités clés :
- L'évaluation des politiques hors politique, telle que l'évaluation Q ajustée (FQE), nous permet de faire une première estimation de la performance de chaque politique sur la base d'un ensemble de données hors ligne. Cela correspond bien aux performances de la vérité terrain dans de nombreux environnements, y compris la robotique du monde réel où il est appliqué pour la première fois.
Les retours des politiques sont modélisés conjointement à l'aide d'un processus gaussien, dans lequel les observations incluent les scores FQE et un petit nombre de retours épisodiques nouvellement collectés auprès du robot. Après avoir évalué une politique, nous acquérons des connaissances sur toutes les politiques car leurs distributions sont corrélées via le noyau entre des paires de politiques. Le noyau suppose que si les politiques prennent des mesures similaires – comme déplacer la pince robotisée dans une direction similaire – elles ont tendance à avoir des résultats similaires.
- Pour être plus efficaces en matière de données, nous appliquons l'optimisation bayésienne et donnons la priorité aux politiques les plus prometteuses à évaluer ensuite, à savoir celles qui ont des performances prédites élevées et une grande variance.
Nous avons démontré cette procédure dans un certain nombre d'environnements dans plusieurs domaines : dm-control, Atari, robotique simulée et réelle. L'utilisation d'A-OPS réduit rapidement les regrets et, avec un nombre modéré d'évaluations de politique, nous identifions la meilleure politique.
Nos résultats suggèrent qu'il est possible de faire une sélection de politique hors ligne efficace avec seulement un petit nombre d'interactions avec l'environnement en utilisant les données hors ligne, le noyau spécial et l'optimisation bayésienne. Le code d'A-OPS est open source et disponible sur GitHub avec un exemple d'ensemble de données à essayer.