Recherche
Au fil des millénaires, l’humanité a découvert, évolué et accumulé une richesse de connaissances culturelles, depuis les routes de navigation jusqu’aux mathématiques, en passant par les normes sociales et les œuvres d’art. La transmission culturelle, définie comme la transmission efficace d’informations d’un individu à un autre, est le processus d’héritage qui sous-tend cette augmentation exponentielle des capacités humaines.
Notre agent, en bleu, imite et se souvient de la démonstration des robots (à gauche) et des humains (à droite), en rouge.
Pour plus de vidéos de nos agents en action, visitez notre site web.
Dans ce travail, nous utilisons l’apprentissage par renforcement profond pour générer des agents artificiels capables de transmettre la culture au moment du test. Une fois formés, nos agents peuvent déduire et rappeler les connaissances de navigation démontrées par des experts. Ce transfert de connaissances s’effectue en temps réel et se généralise à un vaste espace de tâches inédites. Par exemple, nos agents peuvent rapidement apprendre de nouveaux comportements en observant une seule démonstration humaine, sans jamais se former sur les données humaines.
Nous formons et testons nos agents dans des mondes 3D générés de manière procédurale, contenant des objectifs sphériques colorés intégrés dans un terrain bruyant rempli d'obstacles. Un joueur doit parcourir les objectifs dans le bon ordre, qui change de manière aléatoire à chaque épisode. L’ordre étant impossible à deviner, une stratégie d’exploration naïve encourt une lourde pénalité. En tant que source d'informations transmises culturellement, nous proposons un « bot » privilégié qui saisit toujours les objectifs dans le bon ordre.
Grâce aux ablations, nous identifions un « kit de démarrage » minimal et suffisant d'ingrédients de formation nécessaires à l'émergence de la transmission culturelle, baptisé MEDAL-ADR. Ces composants incluent la mémoire (M), l'abandon de l'expert (ED), le biais attentionnel envers l'expert (AL) et la randomisation automatique du domaine (ADR). Notre agent surpasse les ablations, y compris la méthode de pointe (ME-AL), dans une gamme de tâches difficiles. La transmission culturelle se généralise étonnamment bien hors de la distribution, et l'agent se souvient des manifestations longtemps après le départ de l'expert. En examinant le cerveau de l'agent, nous trouvons des neurones étonnamment interprétables, responsables du codage des informations sociales et des états d'objectif.
En résumé, nous proposons une procédure pour former un agent capable d’une transmission culturelle flexible, à haut rappel et en temps réel, sans utiliser de données humaines dans le pipeline de formation. Cela ouvre la voie à une évolution culturelle en tant qu’algorithme permettant de développer des agents artificiels plus généralement intelligents.
Les notes de ces auteurs sont basées sur le travail conjoint de l'équipe culturelle de renseignement général : Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko. Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl et Lei M. Zhang.
Lire l'article complet ici.