La vision périphérique permet aux humains de voir des formes qui ne sont pas directement dans notre champ de vision, mais avec moins de détails. Cette capacité élargit notre champ de vision et peut être utile dans de nombreuses situations, comme par exemple détecter un véhicule s'approchant de notre voiture par le côté.
Contrairement aux humains, l’IA n’a pas de vision périphérique. Équiper les modèles de vision par ordinateur de cette capacité pourrait les aider à détecter plus efficacement les dangers qui approchent ou à prédire si un conducteur humain remarquerait un objet venant en sens inverse.
Faisant un pas dans cette direction, les chercheurs du MIT ont développé un ensemble de données d'images qui leur permet de simuler la vision périphérique dans des modèles d'apprentissage automatique. Ils ont constaté que la formation des modèles avec cet ensemble de données améliorait la capacité des modèles à détecter des objets dans la périphérie visuelle, même si les modèles étaient toujours moins performants que les humains.
Leurs résultats ont également révélé que, contrairement aux humains, ni la taille des objets ni la quantité de fouillis visuel dans une scène n’avaient un impact important sur les performances de l’IA.
« Il se passe quelque chose de fondamental ici. Nous avons testé tellement de modèles différents, et même lorsque nous les entraînons, ils s’améliorent un peu mais ils ne ressemblent pas tout à fait aux humains. La question est donc : qu’est-ce qui manque dans ces modèles ? dit Vasha DuTell, postdoctorante et co-auteur d'un article détaillant cette étude.
Répondre à cette question pourrait aider les chercheurs à créer des modèles d’apprentissage automatique capables de voir le monde davantage comme le font les humains. En plus d’améliorer la sécurité des conducteurs, ces modèles pourraient être utilisés pour développer des écrans plus faciles à visualiser.
De plus, une compréhension plus approfondie de la vision périphérique dans les modèles d'IA pourrait aider les chercheurs à mieux prédire le comportement humain, ajoute l'auteur principal Anne Harrington MEng '23.
« La modélisation de la vision périphérique, si nous pouvons réellement capturer l'essence de ce qui est représenté en périphérie, peut nous aider à comprendre les caractéristiques d'une scène visuelle qui font bouger nos yeux pour collecter plus d'informations », explique-t-elle.
Leurs co-auteurs incluent Mark Hamilton, étudiant diplômé en génie électrique et en informatique ; Ayush Tewari, postdoctorant ; Simon Stent, directeur de recherche au Toyota Research Institute ; et les auteurs principaux William T. Freeman, professeur Thomas et Gerd Perkins de génie électrique et d'informatique et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) ; et Ruth Rosenholtz, chercheuse principale au Département des sciences du cerveau et des sciences cognitives et membre du CSAIL. La recherche sera présentée à la Conférence internationale sur les représentations de l'apprentissage.
« Chaque fois qu’un humain interagit avec une machine – une voiture, un robot, une interface utilisateur – il est extrêmement important de comprendre ce que la personne peut voir. La vision périphérique joue un rôle essentiel dans cette compréhension », explique Rosenholtz.
Simulation de la vision périphérique
Étendez votre bras devant vous et levez votre pouce : la petite zone autour de votre ongle est visible par votre fovéa, la petite dépression au milieu de votre rétine qui offre la vision la plus nette. Tout ce que vous pouvez voir se trouve dans votre périphérie visuelle. Votre cortex visuel représente une scène avec moins de détails et de fiabilité à mesure qu’elle s’éloigne de ce point focal précis.
De nombreuses approches existantes pour modéliser la vision périphérique dans l’IA représentent cette détérioration des détails en brouillant les bords des images, mais la perte d’informations qui se produit dans le nerf optique et le cortex visuel est bien plus complexe.
Pour une approche plus précise, les chercheurs du MIT ont commencé avec une technique utilisée pour modéliser la vision périphérique chez l'homme. Connue sous le nom de modèle de mosaïque de textures, cette méthode transforme les images pour représenter la perte d'informations visuelles d'un humain.
Ils ont modifié ce modèle pour qu'il puisse transformer les images de la même manière, mais d'une manière plus flexible qui ne nécessite pas de savoir à l'avance où la personne ou l'IA pointera son regard.
« Cela nous permet de modéliser fidèlement la vision périphérique de la même manière que dans la recherche sur la vision humaine », explique Harrington.
Les chercheurs ont utilisé cette technique modifiée pour générer un énorme ensemble de données d’images transformées qui semblent plus texturées dans certaines zones, pour représenter la perte de détails qui se produit lorsqu’un humain regarde plus loin en périphérie.
Ils ont ensuite utilisé l’ensemble de données pour entraîner plusieurs modèles de vision par ordinateur et comparé leurs performances à celles des humains sur une tâche de détection d’objets.
« Nous avons dû être très intelligents dans la manière dont nous avons mis en place l’expérience afin de pouvoir également la tester dans les modèles d’apprentissage automatique. Nous ne voulions pas avoir à recycler les modèles sur une tâche de jouet qu'ils n'étaient pas censés accomplir », dit-elle.
Des performances particulières
Les humains et les modèles ont vu des paires d'images transformées identiques, sauf qu'une image avait un objet cible situé en périphérie. Ensuite, chaque participant devait choisir l’image avec l’objet cible.
« Une chose qui nous a vraiment surpris, c'est à quel point les gens étaient doués pour détecter les objets à leur périphérie. Nous avons parcouru au moins 10 séries d’images différentes qui étaient tout simplement trop faciles. Nous devions constamment utiliser des objets de plus en plus petits », ajoute Harrington.
Les chercheurs ont découvert que la formation de modèles à partir de zéro avec leur ensemble de données entraînait les plus grandes améliorations de performances, améliorant ainsi leur capacité à détecter et à reconnaître les objets. Le réglage fin d'un modèle avec leur ensemble de données, un processus qui implique de peaufiner un modèle pré-entraîné afin qu'il puisse effectuer une nouvelle tâche, a entraîné des gains de performances moindres.
Mais dans tous les cas, les machines n’étaient pas aussi performantes que les humains, et elles étaient particulièrement mauvaises pour détecter les objets situés à la périphérie la plus éloignée. Leurs performances ne suivaient pas non plus les mêmes schémas que celles des humains.
« Cela pourrait suggérer que les modèles n’utilisent pas le contexte de la même manière que les humains pour effectuer ces tâches de détection. La stratégie des modèles pourrait être différente », explique Harrington.
Les chercheurs prévoient de continuer à explorer ces différences, dans le but de trouver un modèle capable de prédire les performances humaines dans la périphérie visuelle. Cela pourrait permettre à des systèmes d’IA d’alerter les conducteurs sur des dangers qu’ils pourraient ne pas voir, par exemple. Ils espèrent également inspirer d’autres chercheurs à mener des études supplémentaires sur la vision par ordinateur avec leur ensemble de données accessible au public.
« Ce travail est important car il contribue à notre compréhension que la vision humaine en périphérie ne doit pas être considérée comme une simple vision appauvrie en raison des limites du nombre de photorécepteurs dont nous disposons, mais plutôt comme une représentation optimisée pour que nous puissions effectuer des tâches réelles. -conséquence mondiale », explique Justin Gardner, professeur agrégé au département de psychologie de l'université de Stanford qui n'a pas participé à ce travail. « De plus, les travaux montrent que les modèles de réseaux neuronaux, malgré leurs progrès ces dernières années, sont incapables d’égaler les performances humaines à cet égard, ce qui devrait conduire à davantage de recherches sur l’IA pour tirer les leçons des neurosciences de la vision humaine. Ces recherches futures seront grandement facilitées par la base de données d’images fournies par les auteurs pour imiter la vision humaine périphérique.
Ce travail est soutenu, en partie, par le Toyota Research Institute et la bourse MIT CSAIL METEOR.