Dans notre récent article nous explorons comment l'apprentissage par renforcement profond multi-agents peut servir de modèle d'interactions sociales complexes, comme la formation de normes sociales. Cette nouvelle classe de modèles pourrait ouvrir la voie à la création de simulations du monde plus riches et plus détaillées.
Les humains sont un espèce ultra sociale. Par rapport aux autres mammifères, nous bénéficions davantage de la coopération, mais nous en sommes également plus dépendants et sommes confrontés à de plus grands défis en matière de coopération. Aujourd’hui, l’humanité est confrontée à de nombreux défis de coopération, notamment prévenir les conflits autour des ressources, garantir à chacun l’accès à l’air pur et à l’eau potable, éliminer l’extrême pauvreté et lutter contre le changement climatique. Bon nombre des problèmes de coopération auxquels nous sommes confrontés sont difficiles à résoudre car ils impliquent des réseaux complexes d'interactions sociales et biophysiques appelés systèmes socio-écologiques. Cependant, les humains peuvent apprendre collectivement à surmonter les défis de coopération auxquels nous sommes confrontés. Nous y parvenons grâce à une culture en constante évolution, comprenant des normes et des institutions qui organisent nos interactions avec l’environnement et entre nous.
Cependant, les normes et les institutions ne parviennent parfois pas à résoudre les problèmes de coopération. Par exemple, les individus peuvent surexploiter des ressources telles que les forêts et les pêcheries, provoquant ainsi leur effondrement. Dans de tels cas, les décideurs politiques peuvent rédiger des lois pour modifier les règles institutionnelles ou élaborer d’autres interventions pour tenter de changer les normes dans l'espoir d'apporter un changement positif. Mais les interventions politiques ne fonctionnent pas toujours comme prévu. En effet, les systèmes socio-écologiques du monde réel sont considérablement plus complexe que les modèles que nous utilisons habituellement pour tenter de prédire les effets des politiques candidates.
Les modèles basés sur la théorie des jeux sont souvent appliqués à l’étude de l’évolution culturelle. Dans la plupart de ces modèles, les principales interactions que les agents entretiennent les uns avec les autres sont exprimées dans une « matrice de gains ». Dans un jeu avec deux participants et deux actions A et B, une matrice de gains définit la valeur des quatre résultats possibles : (1) nous choisissons tous les deux A, (2) nous choisissons tous les deux B, (3) je choisis A pendant que vous choisissez B et (4) Je choisis B tandis que vous choisissez A. L'exemple le plus célèbre est le « dilemme du prisonnier », dans lequel les actions sont interprétées comme « coopérer » et « faire défaut ». Les agents rationnels qui agissent selon leurs propres intérêts myopes sont condamnés à faire défaut dans le dilemme du prisonnier, même si le meilleur résultat de la coopération mutuelle est disponible.
Les modèles de la théorie des jeux ont été très largement appliqués. Des chercheurs de divers domaines les ont utilisés pour étudier un large éventail de phénomènes différents, notamment l’économie et l’évolution de la culture humaine. Cependant, la théorie des jeux n’est pas un outil neutre, mais plutôt un langage de modélisation profondément opiniâtre. Il impose une exigence stricte selon laquelle tout doit finalement être encaissé en termes de matrice de gains (ou de représentation équivalente). Cela signifie que le modélisateur doit tout savoir, ou être prêt à tout supposer, sur la façon dont les effets des actions individuelles se combinent pour générer des incitations. Cela est parfois approprié, et l'approche de la théorie des jeux a connu de nombreux succès notables, notamment dans la modélisation du comportement des entreprises oligopolistiques et relations internationales à l'époque de la guerre froide. Cependant, la principale faiblesse de la théorie des jeux en tant que langage de modélisation est révélée dans les situations où le modélisateur ne comprend pas pleinement comment les choix des individus se combinent pour générer des gains. Malheureusement, cela tend à être le cas des systèmes socio-écologiques, car leurs composantes sociales et écologiques interagissent de manière complexe que nous ne comprenons pas entièrement.
Le travail que nous présentons ici est un exemple dans le cadre d'un programme de recherche qui tente d'établir un cadre de modélisation alternatif, différent de la théorie des jeux, à utiliser dans l'étude des systèmes socio-écologiques. Notre approche peut être considérée formellement comme une variété de modélisation basée sur des agents. Cependant, sa particularité réside dans l’incorporation d’éléments algorithmiques issus de l’intelligence artificielle, notamment l’apprentissage par renforcement multi-agents.
L'idée centrale de cette approche est que chaque modèle se compose de deux parties imbriquées : (1) un modèle riche et dynamique de l'environnement et (2) un modèle de prise de décision individuelle.
Le premier prend la forme d'un simulateur conçu par des chercheurs : un programme interactif qui prend en compte un état environnemental actuel et les actions d'un agent, et génère l'état environnemental suivant ainsi que les observations de tous les agents et leurs récompenses instantanées. Le modèle de prise de décision individuelle est également conditionné par l’état de l’environnement. C'est un agent qui apprend de son expérience passée, en effectuant une forme d’essais et d’erreurs. Un agent interagit avec un environnement en prenant des observations et en produisant des actions. Chaque agent sélectionne des actions en fonction de sa politique comportementale, une cartographie des observations aux actions. Les agents apprennent en modifiant leur politique pour l'améliorer dans n'importe quelle dimension souhaitée, généralement pour obtenir plus de récompense. La politique est stockée dans un réseau neuronal. Les agents apprennent « à partir de zéro », à partir de leur propre expérience, comment le monde fonctionne et ce qu'ils peuvent faire pour gagner plus de récompenses. Pour ce faire, ils ajustent la pondération de leur réseau de manière à ce que les pixels qu'ils reçoivent lors des observations soient progressivement transformés en actions compétentes. Plusieurs agents d’apprentissage peuvent habiter le même environnement les uns que les autres. Dans ce cas, les agents deviennent interdépendants car leurs actions s’influencent mutuellement.
Comme d’autres approches de modélisation basées sur des agents, l’apprentissage par renforcement multi-agents facilite la spécification de modèles qui traversent des niveaux d’analyse qui seraient difficiles à traiter avec la théorie des jeux. Par exemple, les actions peuvent être beaucoup plus proches des primitives motrices de bas niveau (par exemple « avancer » ; « tourner à droite ») que des décisions stratégiques de haut niveau de la théorie des jeux (par exemple « coopérer »). Il s'agit d'une fonctionnalité importante nécessaire pour capturer les situations dans lesquelles les agents doivent s'entraîner pour apprendre efficacement à mettre en œuvre leurs choix stratégiques. Par exemple dans un étude, les agents ont appris à coopérer en nettoyant une rivière à tour de rôle. Cette solution n’a été possible que parce que l’environnement avait des dimensions spatiales et temporelles dans lesquelles les agents disposent d’une grande liberté dans la manière dont ils structurent leur comportement les uns envers les autres. Il est intéressant de noter que même si l'environnement permettait de nombreuses solutions différentes (telles que territorialité), les agents ont convergé vers la même solution de tour de rôle que les joueurs humains.
Dans notre dernière étude, nous avons appliqué ce type de modèle à une question ouverte dans la recherche sur l’évolution culturelle : comment expliquer l’existence de normes sociales fallacieuses et arbitraires dont la violation ne semble pas avoir de conséquences matérielles immédiates au-delà de celles imposées socialement. Par exemple, dans certaines sociétés, les hommes sont censés porter des pantalons et non des jupes ; dans beaucoup d’entre eux, il y a des mots ou des gestes de la main qui ne devraient pas être utilisés en compagnie polie ; et dans la plupart des cas, il existe des règles sur la manière de se coiffer ou sur ce que l'on porte sur la tête. Nous appelons ces normes sociales des « règles idiotes ». Il est important de noter que dans notre cadre, l’application et le respect des normes sociales doivent tous deux être appris. Avoir un environnement social qui inclut une « règle idiote » signifie que les agents ont plus d'opportunités d'apprendre à faire respecter les normes en général. Cette pratique supplémentaire leur permet alors de faire respecter plus efficacement les règles importantes. Dans l'ensemble, la « règle idiote » peut être bénéfique pour la population – un résultat surprenant. Ce résultat n’est possible que parce que notre simulation se concentre sur l’apprentissage : l’application et le respect des règles sont des compétences complexes qui nécessitent une formation pour se développer.
Une partie de la raison pour laquelle nous trouvons ce résultat sur des règles idiotes si excitant est qu’il démontre l’utilité de l’apprentissage par renforcement profond multi-agents dans la modélisation de l’évolution culturelle. La culture contribue au succès ou à l’échec des interventions politiques en faveur des systèmes socio-écologiques. Par exemple, le renforcement des normes sociales autour du recyclage fait partie du solution à certains problèmes environnementaux. En suivant cette trajectoire, des simulations plus riches pourraient conduire à une compréhension plus approfondie de la manière de concevoir des interventions pour les systèmes socio-écologiques. Si les simulations deviennent suffisamment réalistes, il sera peut-être même possible de tester l'impact des interventions, par exemple en visant à concevoir un code fiscal qui favorise la productivité et l’équité.
Cette approche fournit aux chercheurs des outils pour préciser des modèles détaillés des phénomènes qui les intéressent. Bien entendu, comme toutes les méthodologies de recherche, elle comporte ses propres forces et faiblesses. Nous espérons en savoir plus sur le moment où ce style de modélisation pourra être appliqué de manière fructueuse à l’avenir. Bien qu’il n’existe pas de panacée pour la modélisation, nous pensons qu’il existe des raisons impérieuses de recourir à l’apprentissage par renforcement profond multi-agents lors de la construction de modèles de phénomènes sociaux, en particulier lorsqu’ils impliquent un apprentissage.