Recherche
Explorer des exemples de généralisation erronée des objectifs – où les capacités d'un système d'IA se généralisent mais pas son objectif
Alors que nous construisons des systèmes d’intelligence artificielle (IA) de plus en plus avancés, nous voulons nous assurer qu’ils ne poursuivent pas d’objectifs indésirables. Un tel comportement chez un agent IA est souvent le résultat de jeux de spécifications – en exploitant un mauvais choix de ce pour quoi ils sont récompensés. Dans notre dernier articlenous explorons un mécanisme plus subtil par lequel les systèmes d’IA peuvent involontairement apprendre à poursuivre des objectifs indésirables : mauvaise généralisation de l'objectif (GMG).
GMG se produit lorsque le système capacités généraliser avec succès mais c'est but ne généralise pas comme souhaité, de sorte que le système poursuit avec compétence le mauvais objectif. Surtout, contrairement aux jeux de spécifications, les GMG peuvent se produire même lorsque le système d’IA est entraîné avec une spécification correcte.
Notre plus tôt travailler sur la transmission culturelle a conduit à un exemple de comportement de GMG que nous n'avons pas conçu. Un agent (la goutte bleue, ci-dessous) doit naviguer dans son environnement, en visitant les sphères colorées dans le bon ordre. Pendant la formation, il y a un agent « expert » (la goutte rouge) qui visite les sphères colorées dans le bon ordre. L'agent apprend que suivre la goutte rouge est une stratégie enrichissante.
Malheureusement, si l’agent est performant lors de la formation, il s’en sort mal lorsque, après la formation, on remplace l’expert par un « anti-expert » qui visite les sphères dans le mauvais ordre.
Même si l’agent peut constater qu’il reçoit une récompense négative, il ne poursuit pas l’objectif souhaité de « visiter les sphères dans le bon ordre » et poursuit plutôt avec compétence l’objectif de « suivre l’agent rouge ».
GMG ne se limite pas aux environnements d'apprentissage par renforcement comme celui-ci. En fait, cela peut se produire avec n’importe quel système d’apprentissage, y compris « l’apprentissage en quelques étapes » des grands modèles de langage (LLM). Les approches d'apprentissage en quelques étapes visent à créer des modèles précis avec moins de données d'entraînement.
Nous avons invité un LLM, Gopher, pour évaluer des expressions linéaires impliquant des variables et des constantes inconnues, telles que x+y-3. Pour résoudre ces expressions, Gopher doit d’abord s’interroger sur les valeurs des variables inconnues. Nous lui fournissons dix exemples de formation, chacun impliquant deux variables inconnues.
Au moment du test, le modèle se voit poser des questions avec zéro, une ou trois variables inconnues. Bien que le modèle se généralise correctement aux expressions à une ou trois variables inconnues, lorsqu'il n'y a pas d'inconnues, il pose néanmoins des questions redondantes comme « Qu'est-ce que 6 ? ». Le modèle interroge toujours l'utilisateur au moins une fois avant de donner une réponse, même lorsque cela n'est pas nécessaire.
Dans notre article, nous fournissons des exemples supplémentaires dans d’autres contextes d’apprentissage.
Il est important de s'attaquer aux GMG pour aligner les systèmes d'IA sur les objectifs de leurs concepteurs, simplement parce qu'il s'agit d'un mécanisme par lequel un système d'IA peut avoir des ratés. Cela sera particulièrement critique à l’approche de l’intelligence artificielle générale (AGI).
Considérez deux types possibles de systèmes AGI :
- A1 : Modèle prévu. Ce système d’IA fait ce que ses concepteurs veulent qu’il fasse.
- A2 : Modèle trompeur. Ce système d'IA poursuit un objectif indésirable, mais (par hypothèse) est également suffisamment intelligent pour savoir qu'il sera pénalisé s'il se comporte d'une manière contraire aux intentions de son concepteur.
Puisque A1 et A2 présenteront le même comportement pendant l’entraînement, la possibilité de GMG signifie que l’un ou l’autre modèle pourrait prendre forme, même avec une spécification qui ne récompense que le comportement prévu. Si A2 est appris, il tentera de renverser la surveillance humaine afin de mettre en œuvre ses plans vers un objectif non souhaité.
Notre équipe de recherche serait heureuse de voir des travaux de suivi étudier la probabilité qu'un GMG se produise dans la pratique et les mesures d'atténuation possibles. Dans notre article, nous proposons quelques approches, notamment mécaniste interprétabilité et récursif évaluationsur lesquels nous travaillons activement.
Nous collectons actuellement des exemples de GMG dans ce domaine feuille de calcul accessible au public. Si vous avez été confronté à une mauvaise généralisation des objectifs dans la recherche sur l'IA, nous vous invitons à soumettre des exemples ici.