Notre cerveau possède une incroyable capacité à traiter les informations visuelles. Nous pouvons jeter un coup d'œil sur une scène complexe et, en quelques millisecondes, être capables de l'analyser en objets et en leurs attributs, comme la couleur ou la taille, et d'utiliser ces informations pour décrire la scène dans un langage simple. À la base de cette capacité apparemment sans effort se trouve un calcul complexe effectué par notre cortex visuel, qui consiste à prendre des millions d'impulsions neuronales transmises par la rétine et à les transformer en une forme plus significative pouvant être mappée à une simple description linguistique. Afin de bien comprendre comment ce processus fonctionne dans le cerveau, nous devons comprendre à la fois comment les informations sémantiquement significatives sont représentées dans l'activation des neurones à la fin de la hiérarchie du traitement visuel, et comment une telle représentation peut être apprise en grande partie expérience non enseignée.
Pour répondre à ces questions dans le cadre de la perception du visage, nous nous sommes associés à nos collaborateurs de Caltech (Doris Tsao) et l'Académie chinoise des sciences (Le Chang). Nous avons choisi des visages car ils sont bien étudiés dans la communauté des neurosciences et sont souvent considérés comme des «microcosme de reconnaissance d'objets». En particulier, nous voulions comparer les réponses de neurones corticaux uniques dans les zones faciales à la fin de la hiérarchie de traitement visuel, enregistrées par nos collaborateurs, à une classe récemment apparue de réseaux neuronaux profonds dits « démêlants » qui, contrairement aux réseaux neuronaux profonds habituels. Les systèmes de type « boîte noire » visent explicitement à être interprétables par les humains. Un réseau neuronal de « démêlage » apprend à cartographier des images complexes en un petit nombre de neurones internes (appelés unités latentes), chacun représentant un seul attribut sémantiquement significatif de la scène, comme la couleur ou la taille d'un objet (voir Figure 1). Contrairement aux classificateurs profonds « boîte noire » entraînés à reconnaître des objets visuels grâce à une quantité biologiquement irréaliste de supervision externe, de tels modèles de démêlage sont formés sans signal d'enseignement externe en utilisant un objectif auto-supervisé de reconstruction des images d'entrée (génération dans la figure 1) à partir de leur représentation latente apprise (obtenue par inférence dans la figure 1).
Le démêlage était hypothétique être important dans la communauté de l'apprentissage automatique il y a près de dix ans en tant que composant essentiel de la construction de davantage efficace en matière de données, transférable, équitableet imaginatif systèmes d’intelligence artificielle. Cependant, pendant des années, la construction d’un modèle capable de se démêler dans la pratique a échappé au terrain. Le premier modèle capable de le faire avec succès et de manière robuste, appelé β-VAEa été développé en prenant inspiration des neurosciences: β-VAE apprend par prédire ses propres entrées; cela nécessite une expérience visuelle similaire pour un apprentissage réussi celui rencontré par les bébés; et sa représentation latente apprise reflète le propriétés connues du cerveau visuel.
Dans notre nouveau papier, nous avons mesuré dans quelle mesure les unités démêlées découvertes par un β-VAE entraîné sur un ensemble de données d'images de visages sont similaires aux réponses de neurones uniques à la fin du traitement visuel enregistré chez des primates regardant les mêmes visages. Les données neuronales ont été collectées par nos collaborateurs sous la surveillance rigoureuse du Comité institutionnel de protection et d'utilisation des animaux de Caltech. Lorsque nous avons fait la comparaison, nous avons découvert quelque chose de surprenant : il semblait que la poignée d'unités démêlées découvertes par le β-VAE se comportaient comme si elles étaient équivalentes à un sous-ensemble de taille similaire des vrais neurones. Lorsque nous avons regardé de plus près, nous avons découvert une forte cartographie un à un entre les neurones réels et les neurones artificiels (voir Figure 2). Cette cartographie était beaucoup plus forte que celle des modèles alternatifs, y compris les classificateurs profonds auparavant considérés comme des modèles informatiques de pointe en matière de traitement visuel, ou un modèle artisanal de perception du visage considéré comme la « référence » dans la communauté des neurosciences. De plus, les unités β-VAE codaient des informations sémantiquement significatives telles que l'âge, le sexe, la taille des yeux ou la présence d'un sourire, nous permettant de comprendre quels attributs les neurones individuels du cerveau utilisent pour représenter les visages.
Si la β-VAE était effectivement capable de découvrir automatiquement des unités latentes artificielles équivalentes aux vrais neurones en termes de réponse aux images de visage, alors il devrait être possible de traduire l'activité de vrais neurones en leurs homologues artificiels correspondants, et d'utiliser le générateur (voir Figure 1) du β-VAE entraîné pour visualiser les visages que représentent les vrais neurones. Pour tester cela, nous avons présenté aux primates de nouvelles images de visage que le modèle n'a jamais connues et vérifié si nous pouvions les restituer à l'aide du générateur β-VAE (voir Figure 3). Nous avons constaté que cela était effectivement possible. En utilisant l’activité de seulement 12 neurones, nous avons pu générer des images de visage qui étaient des reconstructions plus précises des originaux et d’une meilleure qualité visuelle que celles produites par les modèles génératifs profonds alternatifs. Ceci malgré le fait que les modèles alternatifs sont connus pour être de meilleurs générateurs d’images que le β-VAE en général.
Nos conclusions résumées dans le nouveau papier suggèrent que le cerveau visuel peut être compris au niveau d'un seul neurone, même à la fin de sa hiérarchie de traitement. Ceci est contraire à la croyance commune selon laquelle les informations sémantiquement significatives sont multiplexé entre un grand nombre de ces neurones, chacun restant largement ininterprétable individuellement, un peu comme la façon dont les informations sont codées à travers des couches complètes de neurones artificiels dans des classificateurs profonds. De plus, nos résultats suggèrent qu'il est possible que le cerveau apprenne à soutenir notre capacité à effectuer une perception visuelle sans effort en optimisant l'objectif de démêlage. Alors que le β-VAE a été initialement développé en s'inspirant de principes des neurosciences de haut niveaul'utilité des représentations démêlées pour le comportement intelligent a jusqu'à présent été principalement démontrée dans le communauté d'apprentissage automatique. Conformément à la riche histoire de mutuellement bénéfiques interactions entre neurosciences et apprentissage automatiquenous espérons que les dernières connaissances issues de l'apprentissage automatique pourront désormais alimenter la communauté des neurosciences pour étudier le mérite des représentations démêlées pour soutenir l'intelligence dans les systèmes biologiques, en particulier comme base pour raisonnement abstraitou généralisable et efficace apprentissage des tâches.