Recherche
L'exploration axée sur la curiosité est le processus actif de recherche de nouvelles informations pour améliorer la compréhension de l'agent sur son environnement. Supposons que l’agent ait appris un modèle du monde capable de prédire des événements futurs compte tenu de l’histoire des événements passés. L’agent motivé par la curiosité peut alors utiliser l’inadéquation des prédictions du modèle mondial comme récompense intrinsèque pour orienter sa politique d’exploration vers la recherche de nouvelles informations. Ainsi, l’agent peut ensuite utiliser ces nouvelles informations pour améliorer le modèle mondial lui-même afin de lui permettre de faire de meilleures prédictions. Ce processus itératif peut permettre à l’agent d’explorer éventuellement chaque nouveauté du monde et d’utiliser ces informations pour construire un modèle mondial précis.
Inspiré par les succès de amorcez votre propre latent (BYOL) – qui a été appliqué dans vision par ordinateur, apprentissage de la représentation graphiqueet apprentissage des représentations en RL – nous proposons BYOL-Explore : un agent d’IA conceptuellement simple mais général, axé sur la curiosité, pour résoudre des tâches d’exploration difficiles. BYOL-Explore apprend une représentation du monde en prédisant sa propre représentation future. Ensuite, il utilise l’erreur de prédiction au niveau de la représentation comme une récompense intrinsèque pour former une politique motivée par la curiosité. Par conséquent, BYOL-Explore apprend à la fois une représentation du monde, la dynamique du monde et une politique d’exploration motivée par la curiosité, simplement en optimisant l’erreur de prédiction au niveau de la représentation.
Malgré la simplicité de sa conception, lorsqu'il est appliqué au DM-DUR-8 suite de tâches d'exploration 3D difficiles, visuellement complexes et difficiles, BYOL-Explore surpasse les méthodes d'exploration standard axées sur la curiosité telles que Distillation aléatoire en réseau (RND) et Module Curiosité Intrinsèque (ICM), en termes de score moyen plafonné normalisé par l'homme (CHNS), mesuré pour toutes les tâches. Remarquablement, BYOL-Explore a atteint cette performance en utilisant un seul réseau formé simultanément sur toutes les tâches, alors que les travaux antérieurs étaient limités au paramètre d'une seule tâche et ne pouvaient faire des progrès significatifs sur ces tâches que s'ils étaient accompagnés de démonstrations d'experts humains.
Preuve supplémentaire de sa généralité, BYOL-Explore réalise des performances surhumaines dans les dix explorations les plus difficiles. Jeux Ataritout en ayant une conception plus simple que celle d'autres agents concurrents, tels que Agent57 et Partez à la découverte.
À l’avenir, nous pouvons généraliser BYOL-Explore à des environnements hautement stochastiques en apprenant un modèle mondial probabiliste qui pourrait être utilisé pour générer des trajectoires d’événements futurs. Cela pourrait permettre à l'agent de modéliser la stochasticité possible de l'environnement, d'éviter les pièges stochastiques et de planifier l'exploration.