Imaginez-vous en train de regarder une rue animée pendant quelques instants, puis d'essayer de dessiner de mémoire la scène que vous avez vue. La plupart des gens peuvent dessiner la position approximative des principaux objets comme les voitures, les personnes et les passages pour piétons, mais presque personne ne peut dessiner chaque détail avec une précision parfaite au pixel près. Il en va de même pour la plupart des algorithmes de vision par ordinateur modernes : ils sont fantastiques pour capturer les détails de haut niveau d'une scène, mais ils perdent des détails fins à mesure qu'ils traitent les informations.
Aujourd’hui, les chercheurs du MIT ont créé un système appelé «FeatUp» qui permet aux algorithmes de capturer simultanément tous les détails de haut et de bas niveaux d’une scène – presque comme une chirurgie oculaire au Lasik pour la vision par ordinateur.
Lorsque les ordinateurs apprennent à « voir » en regardant des images et des vidéos, ils se forgent des « idées » sur ce qu’il y a dans une scène à travers ce qu’on appelle des « fonctionnalités ». Pour créer ces fonctionnalités, des réseaux profonds et des modèles de base visuelle décomposent les images en une grille de petits carrés et traitent ces carrés en tant que groupe pour déterminer ce qui se passe sur une photo. Chaque petit carré est généralement composé de 16 à 32 pixels, de sorte que la résolution de ces algorithmes est considérablement plus petite que celle des images avec lesquelles ils travaillent. En essayant de résumer et de comprendre les photos, les algorithmes perdent une tonne de clarté des pixels.
L'algorithme FeatUp peut arrêter cette perte d'informations et augmenter la résolution de tout réseau profond sans compromettre la vitesse ou la qualité. Cela permet aux chercheurs d’améliorer rapidement et facilement la résolution de tout algorithme nouveau ou existant. Par exemple, imaginez essayer d’interpréter les prédictions d’un algorithme de détection du cancer du poumon dans le but de localiser la tumeur. L'application de FeatUp avant d'interpréter l'algorithme à l'aide d'une méthode telle que les cartes d'activation de classe (CAM) peut donner une vue considérablement plus détaillée (16-32x) de l'endroit où la tumeur pourrait être localisée selon le modèle.
FeatUp aide non seulement les praticiens à comprendre leurs modèles, mais peut également améliorer une panoplie de tâches différentes telles que la détection d'objets, la segmentation sémantique (attribution d'étiquettes aux pixels d'une image avec des étiquettes d'objet) et l'estimation de la profondeur. Il y parvient en fournissant des fonctionnalités haute résolution plus précises, essentielles à la création d’applications de vision allant de la conduite autonome à l’imagerie médicale.
« L’essence de toute vision par ordinateur réside dans ces fonctionnalités profondes et intelligentes qui émergent des profondeurs des architectures d’apprentissage profond. Le grand défi des algorithmes modernes est qu'ils réduisent les grandes images à de très petites grilles de fonctionnalités « intelligentes », obtenant des informations intelligentes mais perdant les détails les plus fins », explique Mark Hamilton, doctorant au MIT en génie électrique et informatique, MIT Computer Science. et du Laboratoire d'intelligence artificielle (CSAIL), et co-auteur principal d'un papier à propos du projet. « FeatUp permet d'obtenir le meilleur des deux mondes : des représentations hautement intelligentes avec la résolution de l'image d'origine. Ces fonctionnalités haute résolution améliorent considérablement les performances dans un éventail de tâches de vision par ordinateur, depuis l'amélioration de la détection d'objets et la prédiction de la profondeur jusqu'à une compréhension plus approfondie du processus décisionnel de votre réseau grâce à une analyse haute résolution.
Renaissance de la résolution
À mesure que ces grands modèles d’IA deviennent de plus en plus répandus, il devient de plus en plus nécessaire d’expliquer ce qu’ils font, ce qu’ils regardent et ce qu’ils pensent.
Mais comment FeatUp peut-il exactement découvrir ces détails précis ? Curieusement, le secret réside dans les images qui bougent et tremblent.
FeatUp applique notamment des ajustements mineurs (comme déplacer l'image de quelques pixels vers la gauche ou la droite) et observe comment un algorithme répond à ces légers mouvements de l'image. Il en résulte des centaines de cartes de fonctionnalités approfondies, toutes légèrement différentes, qui peuvent être combinées en un seul ensemble de fonctionnalités approfondies, nettes et haute résolution. « Nous imaginons que certaines fonctionnalités haute résolution existent et que lorsque nous les remuons et les floutons, elles correspondent à toutes les fonctionnalités originales de basse résolution des images remuées. Notre objectif est d'apprendre à affiner les fonctionnalités basse résolution en fonctionnalités haute résolution en utilisant ce « jeu » qui nous permet de savoir dans quelle mesure nous réussissons », explique Hamilton. Cette méthodologie est analogue à la façon dont les algorithmes peuvent créer un modèle 3D à partir de plusieurs images 2D en garantissant que l'objet 3D prédit correspond à toutes les photos 2D utilisées pour le créer. Dans le cas de FeatUp, ils prédisent une carte de caractéristiques haute résolution cohérente avec toutes les cartes de caractéristiques basse résolution formées par le tremblement de l'image d'origine.
L'équipe note que les outils standard disponibles dans PyTorch étaient insuffisants pour répondre à leurs besoins et a introduit un nouveau type de couche réseau profonde dans sa quête d'une solution rapide et efficace. Leur couche personnalisée, une opération spéciale conjointe de suréchantillonnage bilatéral, était plus de 100 fois plus efficace qu’une implémentation naïve dans PyTorch. L’équipe a également montré que cette nouvelle couche pourrait améliorer une grande variété d’algorithmes différents, notamment la segmentation sémantique et la prédiction de profondeur. Cette couche a amélioré la capacité du réseau à traiter et à comprendre les détails haute résolution, donnant à tout algorithme qui l'utilisait une amélioration substantielle des performances.
« Une autre application est ce qu'on appelle la récupération de petits objets, où notre algorithme permet une localisation précise des objets. Par exemple, même dans des scènes de route encombrées, les algorithmes enrichis avec FeatUp peuvent voir de minuscules objets comme des cônes de signalisation, des réflecteurs, des feux et des nids-de-poule là où leurs cousins à basse résolution échouent. Cela démontre sa capacité à améliorer des caractéristiques grossières en signaux finement détaillés », déclare Stephanie Fu '22, MNG '23, doctorante à l'Université de Californie à Berkeley et autre co-auteur principal du nouvel article FeatUp. « Ceci est particulièrement crucial pour les tâches urgentes, comme localiser un panneau de signalisation sur une autoroute encombrée dans une voiture sans conducteur. Cela peut non seulement améliorer la précision de ces tâches en transformant des suppositions générales en localisations exactes, mais pourrait également rendre ces systèmes plus fiables, interprétables et dignes de confiance.
Et ensuite ?
Concernant les aspirations futures, l'équipe souligne l'adoption potentielle généralisée de FeatUp au sein de la communauté de recherche et au-delà, semblable aux pratiques d'augmentation des données. « L'objectif est de faire de cette méthode un outil fondamental d'apprentissage profond, en enrichissant les modèles pour percevoir le monde plus en détail sans l'inefficacité informatique du traitement haute résolution traditionnel », explique Fu.
« FeatUp représente une merveilleuse avancée pour rendre les représentations visuelles vraiment utiles, en les produisant dans des résolutions d'image complètes », déclare Noah Snavely, professeur d'informatique à l'Université Cornell, qui n'a pas participé à la recherche. « Les représentations visuelles apprises sont devenues très bonnes ces dernières années, mais elles sont presque toujours produites à très basse résolution – vous pouvez mettre une belle photo en pleine résolution et obtenir une minuscule grille de caractéristiques de la taille d’un timbre-poste. C'est un problème si vous souhaitez utiliser ces fonctionnalités dans des applications produisant des sorties en pleine résolution. FeatUp résout ce problème de manière créative en combinant des idées classiques en super-résolution avec des approches d'apprentissage modernes, conduisant à de superbes cartes de fonctionnalités haute résolution.
« Nous espérons que cette idée simple pourra avoir une large application. Il fournit des versions haute résolution d'analyse d'images que nous pensions auparavant ne pouvoir être qu'en basse résolution », explique l'auteur principal William T. Freeman, professeur de génie électrique et d'informatique au MIT et membre du CSAIL.
Les auteurs principaux, Fu et Hamilton, sont accompagnés des doctorants du MIT Laura Brandt SM '21 et Axel Feldmann SM '21, ainsi que de Zhoutong Zhang SM '21, PhD '22, tous affiliés actuels ou anciens du MIT CSAIL. Leurs recherches sont soutenues, en partie, par une bourse de recherche supérieure de la National Science Foundation., par la National Science Foundation et le Bureau du directeur du renseignement national, par le laboratoire de recherche de l'US Air Force et par l'accélérateur d'intelligence artificielle de l'US Air Force. Le groupe présentera ses travaux en mai lors de la Conférence internationale sur les représentations de l'apprentissage.