Recherche
Une nouvelle définition formelle de l’agence donne des principes clairs pour la modélisation causale des agents d’IA et des incitations auxquelles ils sont confrontés
Nous souhaitons construire des systèmes d’intelligence générale artificielle (AGI) sûrs et alignés qui poursuivent les objectifs visés par leurs concepteurs. Diagrammes d'influence causale (CID) sont un moyen de modéliser des situations de prise de décision qui nous permettent de raisonner sur incitations pour les agents. Par exemple, voici un CID pour un processus décisionnel markovien en 1 étape – un cadre typique pour les problèmes de prise de décision.
En reliant les configurations de formation aux incitations qui façonnent le comportement des agents, les CID aident à mettre en évidence les risques potentiels avant de former un agent et peuvent inspirer de meilleures conceptions d'agent. Mais comment savoir si un CID est un modèle précis d’une configuration de formation ?
Notre nouveau journal, Découverte des agentsintroduit de nouvelles façons de résoudre ces problèmes, notamment :
- La première définition causale formelle des agents : Les agents sont des systèmes qui adapteraient leur politique si leurs actions influençaient le monde d'une manière différente.
- Un algorithme pour découvrir des agents à partir de données empiriques
- Une traduction entre modèles causals et CID
- Résoudre les confusions antérieures dues à une modélisation causale incorrecte des agents
Combinés, ces résultats fournissent une couche supplémentaire d'assurance qu'aucune erreur de modélisation n'a été commise, ce qui signifie que les CID peuvent être utilisés pour analyser les incitations et les propriétés de sécurité d'un agent avec une plus grande confiance.
Exemple : modéliser une souris en tant qu'agent
Pour illustrer notre méthode, considérons l'exemple suivant consistant en un monde contenant trois carrés, avec une souris commençant par le carré du milieu choisissant d'aller à gauche ou à droite, d'atteindre sa position suivante et éventuellement d'obtenir du fromage. Le sol est glacé, la souris pourrait donc glisser. Parfois le fromage est à droite, parfois à gauche.
Cela peut être représenté par le CID suivant :
L'intuition selon laquelle la souris choisirait un comportement différent pour différents paramètres de l'environnement (glaçage, distribution du fromage) peut être capturée par un graphique causal mécanisé, qui pour chaque variable (au niveau de l'objet), comprend également une variable de mécanisme qui régit la manière dont la variable dépend de ses parents. Fondamentalement, nous autorisons les liens entre les variables du mécanisme.
Ce graphique contient des nœuds de mécanisme supplémentaires en noir, représentant la politique de la souris et la distribution du glaçage et du fromage.
Les limites entre les mécanismes représentent une influence causale directe. Les bords bleus sont spéciaux Terminal bords – en gros, les bords du mécanisme A~ → B~ qui seraient toujours là, même si la variable au niveau de l'objet A était modifiée de sorte qu'elle n'ait pas de bords sortants.
Dans l’exemple ci-dessus, puisque U n’a pas d’enfants, son arête de mécanisme doit être terminale. Mais le bord du mécanisme X~ → D~ n'est pas terminal, car si l'on coupe X de son enfant U, alors la souris n'adaptera plus sa décision (car sa position n'affectera pas si elle obtient le fromage).
Découverte causale d'agents
La découverte causale déduit un graphique causal à partir d'expériences impliquant des interventions. En particulier, on peut découvrir une flèche d'une variable A vers une variable B en intervenant expérimentalement sur A et en vérifiant si B répond, même si toutes les autres variables restent fixes.
Notre premier algorithme utilise cette technique pour découvrir le graphe causal mécanisé :
Notre deuxième algorithme transforme ce graphe causal mécanisé en graphe de jeu :
Pris ensemble, l'algorithme 1 suivi de l'algorithme 2 nous permet de découvrir des agents issus d'expériences causales, en les représentant à l'aide de CID.
Notre troisième algorithme transforme le graphe de jeu en un graphe causal mécanisé, nous permettant de traduire entre les représentations du jeu et celles du graphe causal mécanisé sous certaines hypothèses supplémentaires :
De meilleurs outils de sécurité pour modéliser les agents IA
Nous avons proposé la première définition causale formelle des agents. Fondée sur la découverte causale, notre idée clé est que les agents sont des systèmes qui adaptent leur comportement en réponse aux changements dans la manière dont leurs actions influencent le monde. En effet, nos algorithmes 1 et 2 décrivent un processus expérimental précis qui peut aider à évaluer si un système contient un agent.
L’intérêt pour la modélisation causale des systèmes d’IA croît rapidement, et nos recherches fondent cette modélisation sur des expériences de découverte causale. Notre article démontre le potentiel de notre approche en améliorant l’analyse de la sécurité de plusieurs exemples de systèmes d’IA et montre que la causalité est un cadre utile pour découvrir s’il existe un agent dans un système – une préoccupation clé pour évaluer les risques liés à l’AGI.
Envie d'en savoir plus ? Consultez notre papier. Les commentaires et commentaires sont les bienvenus.