Dans notre récent papier, publié dans Nature Human Behaviour, nous proposons une démonstration de faisabilité selon laquelle l'apprentissage par renforcement profond (RL) peut être utilisé pour trouver des politiques économiques pour lesquelles les gens voteront majoritairement dans un jeu simple. L'article aborde ainsi un défi clé dans la recherche sur l'IA : comment former des systèmes d'IA qui s'alignent sur les valeurs humaines.
Imaginez qu'un groupe de personnes décide de mettre des fonds en commun pour réaliser un investissement. L'investissement est rentable et un profit est réalisé. Comment les bénéfices doivent-ils être répartis ? Une stratégie simple consiste à répartir le rendement de manière égale entre les investisseurs. Mais cela pourrait être injuste, car certaines personnes ont contribué davantage que d’autres. Alternativement, nous pourrions rembourser chacun proportionnellement à la taille de son investissement initial. Cela semble juste, mais et si les gens disposaient de différents niveaux d’actifs au départ ? Si deux personnes contribuent le même montant, mais que l’une donne une fraction de leurs fonds disponibles et que l’autre les donne tous, devraient-elles recevoir la même part des bénéfices ?
Cette question de la redistribution des ressources dans nos économies et nos sociétés suscite depuis longtemps des controverses parmi les philosophes, les économistes et les politologues. Ici, nous utilisons le RL profond comme banc d'essai pour explorer les moyens de résoudre ce problème.
Pour relever ce défi, nous avons créé un jeu simple impliquant quatre joueurs. Chaque instance du jeu s'est déroulée sur 10 tours. À chaque tour, chaque joueur s'est vu attribuer des fonds, la taille de la dotation variant selon les joueurs. Chaque joueur a fait un choix : il pouvait garder ces fonds pour lui ou les investir dans une cagnotte commune. Les fonds investis étaient assurés de croître, mais il y avait un risque, car les joueurs ne savaient pas comment les bénéfices seraient répartis. Au lieu de cela, on leur a dit que pendant les 10 premiers tours, un arbitre (A) prenait les décisions de redistribution, et que pour les 10 seconds tours, un arbitre différent (B) prenait le relais. À la fin de la partie, ils ont voté pour A ou B et ont joué une autre partie avec cet arbitre. Les joueurs humains du jeu étaient autorisés à conserver les bénéfices de ce jeu final, ils étaient donc incités à signaler leurs préférences avec précision.
En réalité, l’un des arbitres était une politique de redistribution prédéfinie, et l’autre était conçu par notre agent RL profond. Pour former l’agent, nous avons d’abord enregistré les données d’un grand nombre de groupes humains et appris à un réseau neuronal à copier la façon dont les gens jouaient au jeu. Cette population simulée pourrait générer des données illimitées, nous permettant d'utiliser des méthodes d'apprentissage automatique gourmandes en données pour former l'agent RL afin de maximiser les votes de ces joueurs « virtuels ». Ce faisant, nous avons ensuite recruté de nouveaux acteurs humains et confronté le mécanisme conçu par l’IA à des références bien connues, telles qu’un libertaire politique qui restitue les fonds aux gens proportionnellement à leurs contributions.
Lorsque nous avons étudié les votes de ces nouveaux acteurs, nous avons constaté que la politique conçue par Deep RL était plus populaire que les lignes de base. En fait, lorsque nous avons mené une nouvelle expérience demandant à un cinquième joueur humain d’assumer le rôle d’arbitre et que nous l’avons formé à essayer de maximiser les votes, la politique mise en œuvre par cet « arbitre humain » était encore moins populaire que celle de notre agent.
Les systèmes d’IA ont parfois été critiqués pour leurs politiques d’apprentissage qui pourraient être incompatibles avec les valeurs humaines, et ce problème d’« alignement des valeurs » est devenu une préoccupation majeure dans la recherche en IA. L’un des mérites de notre approche est que l’IA apprend directement à maximiser les préférences (ou votes) déclarées d’un groupe de personnes. Cette approche peut contribuer à garantir que les systèmes d’IA soient moins susceptibles d’apprendre des politiques dangereuses ou injustes. En fait, lorsque nous avons analysé la politique découverte par l’IA, elle a incorporé un mélange d’idées précédemment proposées par des penseurs humains et des experts pour résoudre le problème de la redistribution.
Premièrement, l’IA a choisi de redistribuer les fonds aux personnes proportionnellement à leurs revenus. relatif plutôt que absolu contribution. Cela signifie que lors de la redistribution des fonds, l'agent tient compte des moyens initiaux de chaque joueur, ainsi que de sa volonté de contribuer. Deuxièmement, le système d’IA récompensait particulièrement les joueurs dont la contribution relative était plus généreuse, encourageant peut-être les autres à faire de même. Il est important de noter que l’IA n’a découvert ces politiques qu’en apprenant à maximiser les votes humains. La méthode garantit donc que les humains restent « au courant » et que l’IA produit des solutions compatibles avec l’humain.
En demandant aux gens de voter, nous avons exploité le principe de la démocratie majoritaire pour décider de ce que veulent les gens. Malgré son large attrait, il est largement reconnu que la démocratie s’accompagne d’une condition selon laquelle les préférences de la majorité sont prises en compte par rapport à celles de la minorité. Dans notre étude, nous avons veillé à ce que – comme dans la plupart des sociétés – cette minorité soit composée d’acteurs plus généreusement dotés. Mais des travaux supplémentaires sont nécessaires pour comprendre comment équilibrer les préférences relatives des groupes majoritaires et minoritaires, en concevant des systèmes démocratiques permettant à toutes les voix de se faire entendre.