Pour parcourir le monde, notre cerveau doit développer une compréhension intuitive du monde physique qui nous entoure, que nous utilisons ensuite pour interpréter les informations sensorielles qui lui parviennent.
Comment le cerveau développe-t-il cette compréhension intuitive ? De nombreux scientifiques pensent qu’il pourrait utiliser un processus similaire à ce que l’on appelle « l’apprentissage auto-supervisé ». Ce type d'apprentissage automatique, développé à l'origine pour créer des modèles de vision par ordinateur plus efficaces, permet aux modèles informatiques d'en apprendre davantage sur les scènes visuelles en se basant uniquement sur leurs similitudes et leurs différences, sans étiquettes ni autres informations.
Deux études menées par des chercheurs du centre K. Lisa Yang Integrative Computational Neuroscience (ICoN) du MIT offrent de nouvelles preuves à l'appui de cette hypothèse. Les chercheurs ont découvert que lorsqu’ils formaient des modèles appelés réseaux de neurones en utilisant un type particulier d’apprentissage auto-supervisé, les modèles résultants généraient des schémas d’activité très similaires à ceux observés dans le cerveau des animaux qui effectuaient les mêmes tâches que les modèles.
Les résultats suggèrent que ces modèles sont capables d'apprendre des représentations du monde physique qu'ils peuvent utiliser pour faire des prédictions précises sur ce qui se passera dans ce monde, et que le cerveau des mammifères pourrait utiliser la même stratégie, affirment les chercheurs.
« Le thème de notre travail est que l'IA conçue pour aider à construire de meilleurs robots finit également par être un cadre permettant de mieux comprendre le cerveau de manière plus générale », explique Aran Nayebi, postdoctorant au Centre ICoN. « Nous ne pouvons pas encore dire s'il s'agit de l'ensemble du cerveau, mais à travers des échelles et des zones cérébrales disparates, nos résultats semblent suggérer un principe organisateur. »
Nayebi est l'auteur principal de une des études, co-écrit avec Rishi Rajalingham, ancien postdoctorant du MIT maintenant chez Meta Reality Labs, et les auteurs principaux Mehrdad Jazayeri, professeur agrégé de sciences du cerveau et des sciences cognitives et membre du McGovern Institute for Brain Research ; et Robert Yang, professeur adjoint de sciences du cerveau et des sciences cognitives et membre associé du McGovern Institute. Ila Fiete, directrice du Centre ICoN, professeur de sciences du cerveau et des sciences cognitives et membre associé du McGovern Institute, est l'auteur principal de l'étude. autre étudecodirigé par Mikail Khona, étudiant diplômé du MIT, et Rylan Schaeffer, ancien associé de recherche principal au MIT.
Les deux études seront présentées lors de la conférence 2023 sur les systèmes de traitement de l'information neuronale (NeurIPS) en décembre.
Modéliser le monde physique
Les premiers modèles de vision par ordinateur reposaient principalement sur l’apprentissage supervisé. Grâce à cette approche, les modèles sont entraînés à classer des images portant chacune un nom : chat, voiture, etc. Les modèles résultants fonctionnent bien, mais ce type d'entraînement nécessite une grande quantité de données étiquetées par l'homme.
Pour créer une alternative plus efficace, les chercheurs se sont tournés ces dernières années vers des modèles construits grâce à une technique connue sous le nom d’apprentissage contrastif auto-supervisé. Ce type d'apprentissage permet à un algorithme d'apprendre à classer les objets en fonction de leur similarité les uns avec les autres, sans aucune étiquette externe fournie.
« Il s'agit d'une méthode très puissante car vous pouvez désormais exploiter de très grands ensembles de données modernes, en particulier des vidéos, et réellement libérer leur potentiel », explique Nayebi. « Une grande partie de l'IA moderne que vous voyez aujourd'hui, en particulier au cours des deux dernières années avec ChatGPT et GPT-4, est le résultat de la formation d'une fonction objective auto-supervisée sur un ensemble de données à grande échelle pour obtenir une représentation très flexible. »
Ces types de modèles, également appelés les réseaux de neurones, sont constitués de milliers ou de millions d’unités de traitement connectées les unes aux autres. Chaque nœud dispose de connexions de puissance variable avec d’autres nœuds du réseau. À mesure que le réseau analyse d’énormes quantités de données, la force de ces connexions change à mesure que le réseau apprend à effectuer la tâche souhaitée.
À mesure que le modèle effectue une tâche particulière, les modèles d'activité des différentes unités du réseau peuvent être mesurés. L'activité de chaque unité peut être représentée comme un schéma de déclenchement, similaire aux schémas de déclenchement des neurones du cerveau. Des travaux antérieurs de Nayebi et d'autres ont montré que les modèles de vision auto-supervisés génèrent une activité similaire à celle observée dans le système de traitement visuel du cerveau des mammifères.
Dans les deux nouvelles études NeurIPS, les chercheurs ont cherché à déterminer si des modèles informatiques auto-supervisés d'autres fonctions cognitives pourraient également présenter des similitudes avec le cerveau des mammifères. Dans l’étude dirigée par Nayebi, les chercheurs ont formé des modèles auto-supervisés pour prédire l’état futur de leur environnement à travers des centaines de milliers de vidéos naturalistes illustrant des scénarios quotidiens.
« Depuis une dizaine d’années, la méthode dominante pour construire des modèles de réseaux neuronaux en neurosciences cognitives consiste à entraîner ces réseaux sur des tâches cognitives individuelles. Mais les modèles formés de cette manière se généralisent rarement à d’autres tâches », explique Yang. « Ici, nous testons si nous pouvons créer des modèles pour certains aspects de la cognition en nous entraînant d'abord sur des données naturalistes à l'aide d'un apprentissage auto-supervisé, puis en les évaluant en laboratoire. »
Une fois le modèle formé, les chercheurs l’ont généralisé à une tâche qu’ils appellent « Mental-Pong ». Ceci est similaire au jeu vidéo Pong, dans lequel un joueur déplace une pagaie pour frapper une balle traversant l'écran. Dans la version Mental-Pong, la balle disparaît peu de temps avant de toucher la raquette, le joueur doit donc estimer sa trajectoire pour pouvoir frapper la balle.
Les chercheurs ont découvert que le modèle était capable de suivre la trajectoire de la balle cachée avec une précision similaire à celle des neurones du cerveau des mammifères, ce qui avait été démontré dans une étude précédente de Rajalingham et Jazayeri pour simuler sa trajectoire – un phénomène cognitif connu sous le nom de « mental ». simulation. » De plus, les schémas d'activation neuronale observés dans le modèle étaient similaires à ceux observés dans le cerveau des animaux lorsqu'ils jouaient au jeu, en particulier dans une partie du cerveau appelée cortex frontal dorsomédial. Aucune autre classe de modèle informatique n'a été capable de faire correspondre les données biologiques aussi étroitement que celle-ci, affirment les chercheurs.
« De nombreux efforts sont déployés dans la communauté de l'apprentissage automatique pour créer une intelligence artificielle », explique Jazayeri. « La pertinence de ces modèles pour la neurobiologie dépend de leur capacité à capturer en outre le fonctionnement interne du cerveau. Le fait que le modèle d'Aran prédise les données neuronales est vraiment important car il suggère que nous nous rapprochons peut-être de la construction de systèmes artificiels imitant l'intelligence naturelle.
Naviguer dans le monde
L'étude menée par Khona, Schaeffer et Fiete s'est concentrée sur un type de neurones spécialisés appelés cellules de grille. Ces cellules, situées dans le cortex entorhinal, aident les animaux à naviguer, en travaillant en collaboration avec les cellules de lieu situées dans l'hippocampe.
Alors que les cellules de placement se déclenchent chaque fois qu'un animal se trouve dans un emplacement spécifique, les cellules de grille ne se déclenchent que lorsque l'animal se trouve à l'un des sommets d'un réseau triangulaire. Les groupes de cellules de grille créent des réseaux superposés de différentes tailles, ce qui leur permet de coder un grand nombre de positions en utilisant un nombre relativement petit de cellules.
Au cours des dernières études, des chercheurs ont formé des réseaux neuronaux supervisés pour imiter le fonctionnement des cellules de la grille en prédisant l'emplacement suivant d'un animal en fonction de son point de départ et de sa vitesse, une tâche connue sous le nom d'intégration de chemin. Cependant, ces modèles reposaient sur l’accès à tout moment à des informations privilégiées sur l’espace absolu – informations dont l’animal ne dispose pas.
Inspirée par les propriétés de codage frappantes du code multipériodique des cellules de grille pour l'espace, l'équipe du MIT a formé un modèle contrastif auto-supervisé pour à la fois effectuer cette même tâche d'intégration de chemin et représenter efficacement l'espace ce faisant. Pour les données d’entraînement, ils ont utilisé des séquences d’entrées de vitesse. Le modèle a appris à distinguer les positions selon qu'elles étaient similaires ou différentes : les positions proches généraient des codes similaires, mais les positions ultérieures généraient des codes plus différents.
« C'est similaire à la formation de modèles sur des images, où si deux images sont toutes deux des têtes de chats, leurs codes doivent être similaires, mais si l'une est la tête d'un chat et l'autre un camion, alors vous voulez que leurs codes se repoussent », Khona dit. « Nous reprenons la même idée mais l'appliquons aux trajectoires spatiales. »
Une fois le modèle entraîné, les chercheurs ont découvert que les schémas d’activation des nœuds du modèle formaient plusieurs schémas de treillis avec des périodes différentes, très similaires à ceux formés par les cellules de la grille du cerveau.
« Ce qui me passionne dans ce travail, c'est qu'il établit des liens entre les travaux mathématiques sur les propriétés frappantes de la théorie de l'information du code des cellules de la grille et le calcul de l'intégration des chemins », explique Fiete. « Même si le travail mathématique était analytique, quelles propriétés possède le code de cellule de grille ? — l’approche consistant à optimiser l’efficacité du codage grâce à un apprentissage auto-supervisé et à obtenir un réglage de type grille est synthétique : elle montre quelles propriétés pourraient être nécessaires et suffisantes pour expliquer pourquoi le cerveau possède des cellules en grille.
La recherche a été financée par le K. Lisa Yang ICoN Center, les National Institutes of Health, la Fondation Simons, la Fondation McKnight, le McGovern Institute et la Fondation Helen Hay Whitney.