Dans notre récent article, nous explorons comment les populations d'agents d'apprentissage par renforcement profond (RL profond) peuvent apprendre des comportements microéconomiques, tels que la production, la consommation et le commerce de biens. Nous constatons que les agents artificiels apprennent à prendre des décisions économiquement rationnelles concernant la production, la consommation et les prix, et à réagir de manière appropriée aux changements de l'offre et de la demande. La population converge vers des prix locaux qui reflètent l’abondance des ressources à proximité, et certains agents apprennent à transporter des marchandises entre ces zones pour « acheter bas et vendre haut ». Ce travail fait progresser le programme plus large de recherche sur l’apprentissage par renforcement multi-agents en introduisant de nouveaux défis sociaux que les agents doivent apprendre à résoudre.
Dans la mesure où l’objectif de la recherche sur l’apprentissage par renforcement multi-agents est de produire à terme des agents qui fonctionnent dans toute la gamme et la complexité de l’intelligence sociale humaine, l’ensemble des domaines considérés jusqu’à présent est malheureusement incomplet. Il lui manque encore des domaines cruciaux dans lesquels l’intelligence humaine excelle, et les humains y consacrent beaucoup de temps et d’énergie. L’économie est l’un de ces domaines. Notre objectif dans ce travail est d'établir des environnements basés sur les thèmes de l'échange et de la négociation destinés à être utilisés par les chercheurs en apprentissage par renforcement multi-agents.
L’économie utilise des modèles basés sur des agents pour simuler le comportement des économies. Ces modèles basés sur les agents intègrent souvent des hypothèses économiques sur la manière dont les agents devraient agir. Dans ce travail, nous présentons un monde simulé multi-agents dans lequel les agents peuvent apprendre des comportements économiques à partir de zéro, d'une manière familière à tout étudiant en microéconomie 101 : décisions concernant la production, la consommation et les prix. Mais nos agents doivent également faire d’autres choix qui découlent d’une façon de penser plus physiquement incarnée. Ils doivent naviguer dans un environnement physique, trouver des arbres pour cueillir des fruits et des partenaires avec qui les échanger. Les progrès récents dans les techniques RL approfondies permettent désormais de créer des agents capables d'apprendre ces comportements par eux-mêmes, sans nécessiter qu'un programmeur code les connaissances du domaine.
Notre environnement, appelé Marché aux fruits, est un environnement multijoueur dans lequel les agents produisent et consomment deux types de fruits : des pommes et des bananes. Chaque agent est compétent pour produire un type de fruit, mais a une préférence pour l’autre – si les agents apprenaient à troquer et à échanger des marchandises, les deux parties s’en porteraient mieux.
Dans nos expériences, nous démontrons que les agents RL profonds actuels peuvent apprendre à négocier et que leurs comportements en réponse aux changements de l’offre et de la demande s’alignent sur ce que prédit la théorie microéconomique. Nous nous appuyons ensuite sur ce travail pour présenter des scénarios qui seraient très difficiles à résoudre à l’aide de modèles analytiques, mais qui sont simples pour nos agents RL profonds. Par exemple, dans des environnements où chaque type de fruit pousse dans une zone différente, on observe l’émergence de différentes régions de prix liées à l’abondance locale des fruits, ainsi que l’apprentissage ultérieur de comportements d’arbitrage par certains agents, qui commencent à se spécialiser dans transporter des fruits entre ces régions.
Le domaine de l’économie computationnelle basée sur les agents utilise des simulations similaires pour la recherche économique. Dans ce travail, nous démontrons également que les techniques de pointe de RL profondes peuvent apprendre de manière flexible à agir dans ces environnements à partir de leur propre expérience, sans avoir besoin d'intégrer des connaissances économiques. Cela met en évidence les progrès récents de la communauté de l'apprentissage par renforcement dans plusieurs domaines. -agent RL et deep RL, et démontre le potentiel des techniques multi-agents en tant qu'outils pour faire progresser la recherche en économie simulée.
Comme un chemin vers l’intelligence artificielle générale (AGI), la recherche sur l’apprentissage par renforcement multi-agents devrait englober tous les domaines critiques de l’intelligence sociale. Cependant, jusqu'à présent, elle n'a pas intégré les phénomènes économiques traditionnels tels que le commerce, la négociation, la spécialisation, la consommation et la production. Cet article comble cette lacune et fournit une plate-forme pour des recherches plus approfondies. Pour faciliter les recherches futures dans ce domaine, l'environnement du marché des fruits sera inclus dans la prochaine version du Creuset suite d’environnements.