Des modèles informatiques imitant la structure et la fonction du système auditif humain pourraient aider les chercheurs à concevoir de meilleurs appareils auditifs, implants cochléaires et interfaces cerveau-machine. Une nouvelle étude du MIT révèle que les modèles informatiques modernes dérivés de l’apprentissage automatique se rapprochent de cet objectif.
Dans la plus grande étude jamais réalisée sur les réseaux neuronaux profonds formés pour effectuer des tâches auditives, l'équipe du MIT a montré que la plupart de ces modèles génèrent des représentations internes qui partagent les propriétés des représentations observées dans le cerveau humain lorsque les gens écoutent les mêmes sons.
L'étude offre également un aperçu de la meilleure façon de former ce type de modèle : les chercheurs ont découvert que les modèles formés sur les entrées auditives, y compris le bruit de fond, imitent plus fidèlement les modèles d'activation du cortex auditif humain.
« Ce qui distingue cette étude, c’est qu’il s’agit de la comparaison la plus complète de ce type de modèles avec le système auditif jusqu’à présent. L’étude suggère que les modèles dérivés de l’apprentissage automatique constituent un pas dans la bonne direction et nous donnent des indices sur ce qui tend à en faire de meilleurs modèles du cerveau », déclare Josh McDermott, professeur agrégé de sciences cérébrales et cognitives. sciences au MIT, membre du McGovern Institute for Brain Research et du Center for Brains, Minds, and Machines du MIT, et auteur principal de l'étude.
Greta Tuckute, étudiante diplômée du MIT, et Jenelle Feather PhD '22 sont les auteurs principaux du livre en libre accès. article, qui paraît aujourd'hui dans Biologie PLOS.
Modèles d'audition
Les réseaux de neurones profonds sont des modèles informatiques constitués de nombreuses couches d'unités de traitement de l'information qui peuvent être entraînées sur d'énormes volumes de données pour effectuer des tâches spécifiques. Ce type de modèle est devenu largement utilisé dans de nombreuses applications, et les neuroscientifiques ont commencé à explorer la possibilité que ces systèmes puissent également être utilisés pour décrire la manière dont le cerveau humain exécute certaines tâches.
« Ces modèles construits avec l'apprentissage automatique sont capables d'agir sur des comportements à une échelle qui n'était vraiment pas possible avec les types de modèles précédents, et cela a conduit à s'intéresser à savoir si les représentations dans les modèles pourraient ou non capturer ce qui se passe. dans le cerveau », explique Tuckute.
Lorsqu'un réseau neuronal exécute une tâche, ses unités de traitement génèrent des modèles d'activation en réponse à chaque entrée audio qu'il reçoit, comme un mot ou un autre type de son. Ces représentations modèles de l’entrée peuvent être comparées aux modèles d’activation observés dans les scanners cérébraux IRMf de personnes écoutant la même entrée.
En 2018, McDermott et Alexander Kell, alors étudiant diplômé signalé que lorsqu'ils ont entraîné un réseau neuronal à effectuer des tâches auditives (telles que reconnaître des mots à partir d'un signal audio), les représentations internes générées par le modèle ont montré une similitude avec celles observées dans les analyses IRMf de personnes écoutant les mêmes sons.
Depuis lors, ces types de modèles sont devenus largement utilisés, c'est pourquoi le groupe de recherche de McDermott a entrepris d'évaluer un ensemble plus large de modèles, pour voir si la capacité à se rapprocher des représentations neuronales observées dans le cerveau humain est une caractéristique générale de ces modèles.
Pour cette étude, les chercheurs ont analysé neuf modèles de réseaux neuronaux profonds accessibles au public qui avaient été formés pour effectuer des tâches auditives, et ils ont également créé 14 modèles qui leur sont propres, basés sur deux architectures différentes. La plupart de ces modèles ont été formés pour effectuer une seule tâche – reconnaître des mots, identifier le locuteur, reconnaître les sons environnementaux et identifier un genre musical – tandis que deux d’entre eux ont été formés pour effectuer plusieurs tâches.
Lorsque les chercheurs ont présenté à ces modèles des sons naturels qui avaient été utilisés comme stimuli dans des expériences d’IRMf sur des humains, ils ont constaté que les représentations des modèles internes avaient tendance à présenter des similitudes avec celles générées par le cerveau humain. Les modèles dont les représentations ressemblaient le plus à celles observées dans le cerveau étaient des modèles qui avaient été entraînés à plusieurs tâches et qui avaient été entraînés sur des entrées auditives incluant le bruit de fond.
« Si vous entraînez des modèles dans le bruit, ils donnent de meilleures prédictions cérébrales que si vous ne le faisiez pas, ce qui est intuitivement raisonnable car une grande partie de l'audition dans le monde réel implique d'entendre dans le bruit, et c'est probablement une chose à laquelle le système auditif est adapté », Feather dit.
Traitement hiérarchique
La nouvelle étude soutient également l'idée selon laquelle le cortex auditif humain possède un certain degré d'organisation hiérarchique, dans laquelle le traitement est divisé en étapes prenant en charge des fonctions informatiques distinctes. Comme dans l’étude de 2018, les chercheurs ont découvert que les représentations générées dans les étapes antérieures du modèle ressemblent le plus à celles observées dans le cortex auditif primaire, tandis que les représentations générées dans les étapes ultérieures du modèle ressemblent davantage à celles générées dans les régions du cerveau au-delà du cortex primaire.
De plus, les chercheurs ont découvert que les modèles formés à différentes tâches étaient plus aptes à reproduire différents aspects de l’audition. Par exemple, les modèles entraînés sur une tâche liée à la parole ressemblaient davantage à des zones sélectives de parole.
« Même si le modèle a vu exactement les mêmes données d'entraînement et que l'architecture est la même, lorsque vous optimisez pour une tâche particulière, vous pouvez voir qu'elle explique de manière sélective des propriétés de réglage spécifiques dans le cerveau », explique Tuckute.
Le laboratoire de McDermott prévoit désormais d'utiliser ses résultats pour tenter de développer des modèles encore plus efficaces pour reproduire les réponses du cerveau humain. En plus d’aider les scientifiques à en apprendre davantage sur la façon dont le cerveau peut être organisé, ces modèles pourraient également être utilisés pour contribuer au développement de meilleurs appareils auditifs, implants cochléaires et interfaces cerveau-machine.
« L’un des objectifs de notre domaine est de parvenir à un modèle informatique capable de prédire les réponses et le comportement du cerveau. Nous pensons que si nous parvenons à atteindre cet objectif, cela ouvrira de nombreuses portes », déclare McDermott.
La recherche a été financée par les National Institutes of Health, une bourse Amazon du Science Hub, une bourse de doctorat internationale de l'American Association of University Women, une bourse des amis du McGovern Institute du MIT et une bourse d'études supérieures en sciences informatiques du Département de l'énergie.