Imaginez que vous faites défiler les photos sur votre téléphone et que vous tombez sur une image que vous ne parvenez pas à reconnaître au début. Cela ressemble peut-être à quelque chose de flou sur le canapé ; ça pourrait être un oreiller ou un manteau ? Après quelques secondes, il clique – bien sûr ! Cette boule de peluches est le chat de ton ami, Mocha. Alors que certaines de vos photos pouvaient être comprises en un instant, pourquoi cette photo de chat était-elle beaucoup plus difficile ?
Les chercheurs du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) ont été surpris de constater que malgré l'importance cruciale de la compréhension des données visuelles dans des domaines clés allant des soins de santé aux transports en passant par les appareils ménagers, la notion de difficulté de reconnaissance d'une image pour les humains a été presque entièrement ignoré. L’un des principaux moteurs de progrès dans l’IA basée sur l’apprentissage profond a été les ensembles de données, mais nous savons peu de choses sur la manière dont les données stimulent les progrès dans l’apprentissage profond à grande échelle, au-delà du fait que plus c’est gros, mieux c’est.
Dans les applications du monde réel qui nécessitent la compréhension de données visuelles, les humains surpassent les modèles de reconnaissance d'objets, même si ces derniers fonctionnent bien sur les ensembles de données actuels, y compris ceux explicitement conçus pour défier les machines avec des images biaisées ou des changements de distribution. Ce problème persiste, en partie parce que nous n’avons aucune indication sur la difficulté absolue d’une image ou d’un ensemble de données. Sans tenir compte de la difficulté des images utilisées pour l'évaluation, il est difficile d'évaluer objectivement les progrès vers des performances au niveau humain, de couvrir l'éventail des capacités humaines et d'augmenter le défi posé par un ensemble de données.
Pour combler ce manque de connaissances, David Mayo, doctorant au MIT en génie électrique et informatique et affilié au CSAIL, s'est plongé dans le monde profond des ensembles de données d'images, explorant pourquoi certaines images sont plus difficiles à reconnaître que d'autres par les humains et les machines. « Certaines images prennent intrinsèquement plus de temps à reconnaître, et il est essentiel de comprendre l'activité du cerveau au cours de ce processus et sa relation avec les modèles d'apprentissage automatique. Il existe peut-être des circuits neuronaux complexes ou des mécanismes uniques manquant dans nos modèles actuels, visibles uniquement lorsqu'ils sont testés avec des images visuelles difficiles. Cette exploration est cruciale pour comprendre et améliorer les modèles de vision industrielle », déclare Mayo, auteur principal d'un nouveau papier sur le travail.
Cela a conduit au développement d’une nouvelle métrique, la «durée minimale de visionnage» (MVT), qui quantifie la difficulté de reconnaître une image en fonction du temps dont une personne a besoin pour la visualiser avant de procéder à une identification correcte. À l'aide d'un sous-ensemble d'ImageNet, un ensemble de données populaire en apprentissage automatique, et d'ObjectNet, un ensemble de données conçu pour tester la robustesse de la reconnaissance d'objets, l'équipe a montré des images aux participants pendant des durées variables allant de 17 millisecondes à 10 secondes, et leur a demandé pour choisir le bon objet parmi un ensemble de 50 options. Après plus de 200 000 essais de présentation d'images, l'équipe a constaté que les ensembles de tests existants, y compris ObjectNet, semblaient orientés vers des images MVT plus simples et plus courtes, la grande majorité des performances de référence étant dérivées d'images faciles à utiliser pour les humains.
Le projet a identifié des tendances intéressantes dans les performances des modèles, notamment en ce qui concerne la mise à l'échelle. Les modèles plus grands ont montré une amélioration considérable sur les images plus simples, mais ont réalisé moins de progrès sur les images plus difficiles. Les modèles CLIP, qui intègrent à la fois le langage et la vision, se sont démarqués en évoluant vers une reconnaissance plus humaine.
« Traditionnellement, les ensembles de données de reconnaissance d'objets étaient orientés vers des images moins complexes, une pratique qui a conduit à une inflation des mesures de performances des modèles, qui ne reflète pas vraiment la robustesse d'un modèle ou sa capacité à s'attaquer à des tâches visuelles complexes. Notre recherche révèle que les images plus dures posent un défi plus aigu, provoquant un changement de distribution qui n'est souvent pas pris en compte dans les évaluations standard », explique Mayo. «Nous avons publié des ensembles d'images étiquetés par difficulté ainsi que des outils pour calculer automatiquement MVT, permettant d'ajouter MVT aux benchmarks existants et de l'étendre à diverses applications. Il s’agit notamment de mesurer la difficulté des ensembles de tests avant de déployer des systèmes du monde réel, de découvrir des corrélats neuronaux de difficulté d’image et de faire progresser les techniques de reconnaissance d’objets pour réduire l’écart entre les performances de référence et celles du monde réel.
« L’un de mes principaux points à retenir est que nous disposons désormais d’une autre dimension sur laquelle évaluer les modèles. Nous voulons des modèles capables de reconnaître n’importe quelle image même si – peut-être surtout si – elle est difficile à reconnaître pour un humain. Nous sommes les premiers à quantifier ce que cela signifierait. Nos résultats montrent que non seulement ce n'est pas le cas avec l'état actuel de la technique, mais aussi que nos méthodes d'évaluation actuelles n'ont pas la capacité de nous dire quand c'est le cas parce que les ensembles de données standards sont tellement orientés vers des images faciles. déclare Jesse Cummings, étudiant diplômé du MIT en génie électrique et informatique et co-premier auteur avec Mayo sur l'article.
D'ObjectNet à MVT
Il y a quelques années, l'équipe à l'origine de ce projet a identifié un défi important dans le domaine de l'apprentissage automatique : les modèles rencontraient des difficultés avec des images non distribuées ou des images qui n'étaient pas bien représentées dans les données d'entraînement. Entrez ObjectNet, un ensemble de données composé d'images collectées à partir de paramètres réels. L'ensemble de données a permis d'éclairer l'écart de performances entre les modèles d'apprentissage automatique et les capacités de reconnaissance humaine, en éliminant les fausses corrélations présentes dans d'autres benchmarks, par exemple entre un objet et son arrière-plan. ObjectNet a mis en lumière l'écart entre les performances des modèles de vision industrielle sur des ensembles de données et dans des applications du monde réel, encourageant ainsi leur utilisation par de nombreux chercheurs et développeurs, ce qui a par la suite amélioré les performances des modèles.
Avance rapide jusqu’à aujourd’hui, et l’équipe a poussé ses recherches encore plus loin avec MVT. Contrairement aux méthodes traditionnelles axées sur les performances absolues, cette nouvelle approche évalue les performances des modèles en comparant leurs réponses aux images les plus simples et les plus difficiles. L’étude a en outre exploré comment la difficulté de l’image pouvait être expliquée et testée pour déterminer sa similitude avec le traitement visuel humain. En utilisant des mesures telles que le score C, la profondeur de prédiction et la robustesse contradictoire, l’équipe a découvert que les images plus difficiles sont traitées différemment par les réseaux. « Bien qu'il existe des tendances observables, telles que des images plus simples qui sont plus prototypiques, une explication sémantique complète de la difficulté des images continue d'échapper à la communauté scientifique », explique Mayo.
Dans le domaine des soins de santé, par exemple, la pertinence de comprendre la complexité visuelle devient encore plus prononcée. La capacité des modèles d’IA à interpréter des images médicales, telles que les rayons X, dépend de la diversité et de la difficulté de répartition des images. Les chercheurs préconisent une analyse méticuleuse de la répartition des difficultés adaptée aux professionnels, garantissant que les systèmes d’IA sont évalués sur la base de normes d’experts, plutôt que d’interprétations de profanes.
Mayo et Cummings étudient actuellement les fondements neurologiques de la reconnaissance visuelle, en cherchant à déterminer si le cerveau présente une activité différentielle lors du traitement d'images faciles ou difficiles. L’étude vise à déterminer si les images complexes recrutent des zones cérébrales supplémentaires qui ne sont généralement pas associées au traitement visuel, aidant ainsi à démystifier la façon dont notre cerveau décode avec précision et efficacité le monde visuel.
Vers une performance à l’échelle humaine
Pour l’avenir, les chercheurs ne se concentrent pas uniquement sur l’exploration des moyens d’améliorer les capacités prédictives de l’IA concernant la difficulté des images. L’équipe travaille à identifier les corrélations avec la difficulté du temps de visionnage afin de générer des versions d’images plus difficiles ou plus faciles.
Malgré les avancées significatives de l'étude, les chercheurs reconnaissent des limites, notamment en termes de séparation entre la reconnaissance d'objets et les tâches de recherche visuelle. La méthodologie actuelle se concentre sur la reconnaissance des objets, laissant de côté les complexités introduites par des images encombrées.
« Cette approche globale relève le défi de longue date consistant à évaluer objectivement les progrès vers des performances au niveau humain en matière de reconnaissance d'objets et ouvre de nouvelles voies pour comprendre et faire progresser ce domaine », déclare Mayo. « Avec la possibilité d'adapter la mesure de difficulté du temps minimum de visualisation à une variété de tâches visuelles, ce travail ouvre la voie à des performances plus robustes et plus proches de celles des humains en matière de reconnaissance d'objets, garantissant que les modèles sont véritablement mis à l'épreuve et sont prêts pour le complexités de la compréhension visuelle du monde réel.
« Il s'agit d'une étude fascinante sur la façon dont la perception humaine peut être utilisée pour identifier les faiblesses dans la manière dont les modèles de vision de l'IA sont généralement comparés, qui surestiment les performances de l'IA en se concentrant sur des images simples », déclare Alan L. Yuille, professeur émérite de sciences cognitives et de sciences cognitives chez Bloomberg. Informatique à l'Université Johns Hopkins, qui n'a pas participé à l'article. « Cela aidera à développer des références plus réalistes conduisant non seulement à des améliorations de l'IA, mais également à des comparaisons plus justes entre l'IA et la perception humaine. »
« Il est largement admis que les systèmes de vision par ordinateur surpassent désormais les humains, et c'est vrai sur certains ensembles de données de référence », déclare Simon Kornblith, PhD '17, membre de l'équipe technique d'Anthropic, qui n'a pas non plus participé à ce travail. « Cependant, une grande partie de la difficulté de ces critères vient de l'obscurité du contenu des images ; la personne moyenne n’en sait tout simplement pas assez pour classer les différentes races de chiens. Ce travail se concentre plutôt sur des images que les gens ne peuvent obtenir correctement que si on leur donne suffisamment de temps. Ces images sont généralement beaucoup plus difficiles à obtenir pour les systèmes de vision par ordinateur, mais les meilleurs systèmes ne sont qu’un peu pires que ceux des humains.
Mayo, Cummings et Xinyu Lin MEng '22 ont écrit le papier aux côtés de Andrei Barbu, chercheur scientifique au CSAIL, Boris Katz, chercheur principal au CSAIL, et Dan Gutfreund, chercheur principal au MIT-IBM Watson AI Lab. Les chercheurs sont affiliés au MIT Center for Brains, Minds, and Machines.
L’équipe présente ses travaux à la conférence 2023 sur les systèmes de traitement de l’information neuronale (NeurIPS).