Expliquer le comportement des réseaux de neurones entraînés reste un casse-tête convaincant, d’autant plus que ces modèles gagnent en taille et en sophistication. Comme d’autres défis scientifiques à travers l’histoire, l’ingénierie inverse du fonctionnement des systèmes d’intelligence artificielle nécessite une quantité substantielle d’expérimentation : formuler des hypothèses, intervenir sur le comportement et même disséquer de grands réseaux pour examiner des neurones individuels. À ce jour, la plupart des expériences réussies ont nécessité une grande surveillance humaine. Expliquer chaque calcul à l'intérieur de modèles de la taille de GPT-4 et plus nécessitera presque certainement plus d'automatisation – peut-être même en utilisant les modèles d'IA eux-mêmes.
Pour faciliter cette entreprise opportune, des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont développé une nouvelle approche qui utilise des modèles d'IA pour mener des expériences sur d'autres systèmes et expliquer leur comportement. Leur méthode utilise des agents construits à partir de modèles de langage pré-entraînés pour produire des explications intuitives des calculs au sein de réseaux formés.
Au cœur de cette stratégie se trouve « l’agent d’interprétabilité automatisé » (AIA), conçu pour imiter les processus expérimentaux d’un scientifique. Les agents d'interprétabilité planifient et effectuent des tests sur d'autres systèmes informatiques, dont l'échelle peut aller de neurones individuels à des modèles entiers, afin de produire des explications de ces systèmes sous diverses formes : des descriptions linguistiques de ce que fait un système et de ses échecs, et code qui reproduit le comportement du système. Contrairement aux procédures d'interprétabilité existantes qui classent ou résument passivement les exemples, l'AIA participe activement à la formation d'hypothèses, aux tests expérimentaux et à l'apprentissage itératif, affinant ainsi sa compréhension d'autres systèmes en temps réel.
La méthode AIA est complétée par la nouvelle « interprétation et description des fonctions » (TROUVER), un banc d'essai de fonctions ressemblant à des calculs au sein de réseaux formés, et des descriptions d'accompagnement de leur comportement. L’un des défis majeurs dans l’évaluation de la qualité des descriptions des composants de réseau du monde réel est que les descriptions ne valent que par leur pouvoir explicatif : les chercheurs n’ont pas accès à la vérité sur le terrain. étiquettes d’unités ou descriptions de calculs appris. FIND résout ce problème de longue date dans le domaine en fournissant une norme fiable pour évaluer les procédures d'interprétabilité : les explications des fonctions (par exemple, produites par un AIA) peuvent être évaluées par rapport aux descriptions de fonctions dans le benchmark.
Par exemple, FIND contient des neurones synthétiques conçus pour imiter le comportement de vrais neurones à l’intérieur de modèles de langage, dont certains sont sélectifs pour des concepts individuels tels que le « transport terrestre ». Les AIA bénéficient d'un accès par boîte noire aux neurones synthétiques et aux entrées de conception (telles que « arbre », « bonheur » et « voiture ») pour tester la réponse d'un neurone. Après avoir remarqué qu'un neurone synthétique produit des valeurs de réponse plus élevées pour « voiture » que pour d'autres entrées, une AIA pourrait concevoir des tests plus fins pour distinguer la sélectivité du neurone pour les voitures par rapport à d'autres moyens de transport, tels que les avions et les bateaux. Lorsque l'AIA produit une description telle que « ce neurone est sélectif pour le transport routier, et non pour le transport aérien ou maritime », cette description est évaluée par rapport à la description de la vérité terrain du neurone synthétique (« sélectif pour le transport terrestre ») dans FIND. Le benchmark peut ensuite être utilisé pour comparer les capacités des AIA à d’autres méthodes de la littérature.
Sarah Schwettmann PhD '21, co-auteur principal d'un article sur le nouveau travail et chercheur au CSAIL, souligne les avantages de cette approche. «La capacité des AIA à générer et tester des hypothèses de manière autonome pourrait permettre de faire apparaître des comportements qui seraient autrement difficiles à détecter pour les scientifiques. Il est remarquable que les modèles de langage, lorsqu'ils sont équipés d'outils pour sonder d'autres systèmes, soient capables de ce type de conception expérimentale », explique Schwettmann. « Des tests de référence clairs et simples avec des réponses fondées sur la vérité sur le terrain ont été un moteur majeur de capacités plus générales dans les modèles de langage, et nous espérons que FIND pourra jouer un rôle similaire dans la recherche sur l'interprétabilité. »
Automatisation de l'interprétabilité
Les grands modèles linguistiques conservent toujours leur statut de célébrités très demandées dans le monde de la technologie. Les progrès récents des LLM ont mis en évidence leur capacité à effectuer des tâches de raisonnement complexes dans divers domaines. L'équipe du CSAIL a reconnu que, compte tenu de ces capacités, les modèles de langage pourraient servir de base à des agents généralisés pour une interprétabilité automatisée. « L'interprétabilité a toujours été un domaine aux multiples facettes », explique Schwettmann. « Il n’existe pas d’approche universelle ; la plupart des procédures sont très spécifiques aux questions individuelles que nous pourrions avoir sur un système et à des modalités individuelles comme la vision ou le langage. Les approches existantes pour étiqueter des neurones individuels dans des modèles de vision ont nécessité la formation de modèles spécialisés sur des données humaines, ces modèles n'effectuant que cette seule tâche. Les agents d’interprétabilité construits à partir de modèles de langage pourraient fournir une interface générale pour expliquer d’autres systèmes – synthétisant les résultats d’expériences, intégrant différentes modalités, voire découvrant de nouvelles techniques expérimentales à un niveau très fondamental.
Alors que nous entrons dans un régime où les modèles expliquant sont eux-mêmes des boîtes noires, les évaluations externes des méthodes d’interprétabilité deviennent de plus en plus vitales. Le nouveau benchmark de l'équipe répond à ce besoin avec une suite de fonctions à structure connue, modélisées d'après les comportements observés dans la nature. Les fonctions de FIND couvrent une diversité de domaines, du raisonnement mathématique aux opérations symboliques sur des chaînes en passant par les neurones synthétiques construits à partir de tâches au niveau des mots. L'ensemble de données de fonctions interactives est construit de manière procédurale ; la complexité du monde réel est introduite dans des fonctions simples en ajoutant du bruit, en composant des fonctions et en simulant des biais. Cela permet de comparer les méthodes d'interprétabilité dans un contexte qui se traduit par des performances réelles.
En plus de l'ensemble de données de fonctions, les chercheurs ont introduit un protocole d'évaluation innovant pour évaluer l'efficacité des AIA et des méthodes d'interprétabilité automatisées existantes. Ce protocole implique deux approches. Pour les tâches qui nécessitent la réplication de la fonction dans le code, l'évaluation compare directement les estimations générées par l'IA et les fonctions originales de vérité terrain. L'évaluation devient plus complexe pour les tâches impliquant des descriptions de fonctions en langage naturel. Dans ces cas, évaluer avec précision la qualité de ces descriptions nécessite une compréhension automatisée de leur contenu sémantique. Pour relever ce défi, les chercheurs ont développé un modèle de langage spécialisé « tiers ». Ce modèle est spécifiquement formé pour évaluer l'exactitude et la cohérence des descriptions en langage naturel fournies par les systèmes d'IA, et les compare au comportement de la fonction de vérité terrain.
FIND permet une évaluation révélant que nous sommes encore loin d’automatiser complètement l’interprétabilité ; Bien que les AIA surpassent les approches d’interprétabilité existantes, elles ne parviennent toujours pas à décrire avec précision près de la moitié des fonctions du benchmark. Tamar Rott Shaham, co-auteur principal de l'étude et postdoctorant au CSAIL, note que « bien que cette génération d'AIA soit efficace pour décrire les fonctionnalités de haut niveau, elles négligent encore souvent des détails plus fins, en particulier dans les sous-domaines fonctionnels avec du bruit ou du bruit ». comportement irrégulier. Cela vient probablement d’un échantillonnage insuffisant dans ces zones. L'un des problèmes est que l'efficacité des AIA peut être entravée par leurs données exploratoires initiales. Pour contrer cela, nous avons essayé de guider l'exploration des AIA en initialisant leur recherche avec des entrées spécifiques et pertinentes, ce qui a considérablement amélioré la précision de l'interprétation. Cette approche combine les nouvelles méthodes AIA avec les techniques précédentes en utilisant des exemples précalculés pour lancer le processus d'interprétation.
Les chercheurs développent également une boîte à outils pour augmenter la capacité des AIA à mener des expériences plus précises sur les réseaux neuronaux, à la fois en boîte noire et en boîte blanche. Cette boîte à outils vise à doter les AIA de meilleurs outils pour sélectionner les entrées et affiner les capacités de test d’hypothèses pour une analyse des réseaux neuronaux plus nuancée et plus précise. L’équipe s’attaque également aux défis pratiques liés à l’interprétabilité de l’IA, en se concentrant sur la détermination des bonnes questions à poser lors de l’analyse de modèles dans des scénarios réels. Leur objectif est de développer des procédures d'interprétabilité automatisées qui pourraient éventuellement aider les personnes à auditer les systèmes (par exemple, pour la conduite autonome ou la reconnaissance faciale) à diagnostiquer les modes de défaillance potentiels, les biais cachés ou les comportements surprenants avant le déploiement.
Regarder les observateurs
L’équipe envisage un jour de développer des AIA presque autonomes capables d’auditer d’autres systèmes, avec des scientifiques humains assurant la supervision et les conseils. Les AIA avancées pourraient développer de nouveaux types d’expériences et de questions, potentiellement au-delà des considérations initiales des scientifiques humains. L’accent est mis sur l’expansion de l’interprétabilité de l’IA pour inclure des comportements plus complexes, tels que des circuits neuronaux entiers ou des sous-réseaux, et sur la prédiction des entrées susceptibles de conduire à des comportements indésirables. Ce développement représente une avancée significative dans la recherche sur l’IA, visant à rendre les systèmes d’IA plus compréhensibles et plus fiables.
« Un bon benchmark est un outil puissant pour relever des défis difficiles », déclare Martin Wattenberg, professeur d'informatique à l'Université Harvard, qui n'a pas participé à l'étude. « C'est merveilleux de voir cette référence sophistiquée en matière d'interprétabilité, l'un des défis les plus importants de l'apprentissage automatique aujourd'hui. Je suis particulièrement impressionné par l'agent d'interprétabilité automatisé créé par les auteurs. C'est une sorte de jiu-jitsu d'interprétabilité, retournant l'IA sur elle-même pour aider la compréhension humaine.
Schwettmann, Rott Shaham et leurs collègues ont présenté leurs travaux au NeurIPS 2023 en décembre. Parmi les autres coauteurs du MIT, tous affiliés au CSAIL et au Département de génie électrique et d'informatique (EECS), figurent l'étudiante diplômée Joanna Materzynska, l'étudiant de premier cycle Neil Chowdhury, Shuang Li PhD '23, le professeur adjoint Jacob Andreas et le professeur Antonio Torralba. Le professeur adjoint David Bau de la Northeastern University est un co-auteur supplémentaire.
Le travail a été soutenu, en partie, par le MIT-IBM Watson AI Lab, Open Philanthropy, un Amazon Research Award, Hyundai NGV, le laboratoire de recherche de l'armée américaine, la National Science Foundation des États-Unis, le Zuckerman STEM Leadership Program et une bourse Viterbi. .