Les données sont le nouveau sol, et sur ce nouveau terrain fertile, les chercheurs du MIT plantent bien plus que de simples pixels. En utilisant des images synthétiques pour entraîner des modèles d’apprentissage automatique, une équipe de scientifiques a récemment dépassé les résultats obtenus à partir des méthodes traditionnelles d’entraînement « en images réelles ».
Au cœur de l'approche se trouve un système appelé StableRep, qui n'utilise pas seulement des images de synthèse ; il les génère via des modèles texte-image ultra-populaires comme Stable Diffusion. C'est comme créer des mondes avec des mots.
Alors, qu'y a-t-il dans la sauce secrète de StableRep ? Une stratégie appelée « apprentissage contrastif multi-positif ».
« Nous enseignons le modèle pour en apprendre davantage sur les concepts de haut niveau à travers le contexte et la variance, et pas seulement pour lui fournir des données », explique Lijie Fan, doctorante en génie électrique au MIT, affiliée au Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL). ), chercheur principal des travaux. « Lorsque plusieurs images, toutes générées à partir du même texte, toutes traitées comme des représentations de la même chose sous-jacente, le modèle approfondit les concepts derrière les images, par exemple l'objet, et pas seulement leurs pixels. »
Cette approche considère plusieurs images générées à partir d'invites de texte identiques comme des paires positives, fournissant des informations supplémentaires pendant la formation, ajoutant non seulement plus de diversité, mais spécifiant au système de vision quelles images sont similaires et lesquelles sont différentes. Remarquablement, StableRep a surpassé les prouesses des modèles de haut niveau formés sur des images réelles, tels que SimCLR et CLIP, dans de vastes ensembles de données.
« Même si StableRep aide à atténuer les défis liés à l’acquisition de données dans le cadre de l’apprentissage automatique, il ouvre également la voie à une nouvelle ère de techniques de formation en IA. La capacité de produire sur commande des images synthétiques diversifiées et de haut calibre pourrait contribuer à réduire les dépenses et les ressources fastidieuses », explique Fan.
Le processus de collecte de données n’a jamais été simple. Dans les années 1990, les chercheurs devaient capturer manuellement des photographies pour assembler des ensembles de données sur les objets et les visages. Les années 2000 ont vu des individus parcourir Internet à la recherche de données. Cependant, ces données brutes et non conservées contenaient souvent des écarts par rapport aux scénarios du monde réel et reflétaient des préjugés sociétaux, présentant une vision déformée de la réalité. La tâche consistant à nettoyer les ensembles de données grâce à l’intervention humaine est non seulement coûteuse, mais aussi extrêmement difficile. Imaginez, cependant, si cette collecte de données ardue pouvait être réduite à quelque chose d'aussi simple que l'émission d'une commande en langage naturel.
Un aspect essentiel du triomphe de StableRep est l'ajustement de « l'échelle de guidage » dans le modèle génératif, qui assure un équilibre délicat entre la diversité et la fidélité des images synthétiques. Une fois affinées, les images synthétiques utilisées dans la formation de ces modèles auto-supervisés se sont révélées aussi efficaces, sinon plus, que les images réelles.
Pour aller plus loin, la supervision linguistique a été ajoutée au mélange, créant une variante améliorée : StableRep+. Lorsqu'il est entraîné avec 20 millions d'images synthétiques, StableRep+ a non seulement atteint une précision supérieure, mais a également affiché une efficacité remarquable par rapport aux modèles CLIP entraînés avec un nombre stupéfiant de 50 millions d'images réelles.
Pourtant, le chemin à parcourir n’est pas sans nids-de-poule. Les chercheurs abordent franchement plusieurs limitations, notamment la lenteur actuelle de la génération d’images, les inadéquations sémantiques entre les invites textuelles et les images résultantes, l’amplification potentielle des biais et la complexité de l’attribution des images, qu’il est impératif de résoudre pour les progrès futurs. Un autre problème est que StableRep nécessite d'abord de former le modèle génératif sur des données réelles à grande échelle. L'équipe reconnaît que commencer avec des données réelles reste une nécessité ; cependant, lorsque vous disposez d'un bon modèle génératif, vous pouvez le réutiliser pour de nouvelles tâches, comme la formation de modèles de reconnaissance et de représentations visuelles.
L'équipe note qu'elle n'a pas contourné la nécessité de commencer avec des données réelles ; c'est juste qu'une fois que vous disposez d'un bon modèle génératif, vous pouvez le réutiliser pour de nouvelles tâches, comme la formation de modèles de reconnaissance et de représentations visuelles.
Bien que StableRep offre une bonne solution en réduisant la dépendance à l'égard de vastes collections d'images réelles, il met en évidence les préoccupations concernant les biais cachés dans les données non conservées utilisées pour ces modèles texte-image. Le choix des invites textuelles, partie intégrante du processus de synthèse d’images, n’est pas entièrement exempt de préjugés, « indiquant le rôle essentiel d’une sélection méticuleuse du texte ou d’une éventuelle curation humaine », explique Fan.
« Grâce aux derniers modèles de conversion texte-image, nous avons acquis un contrôle sans précédent sur la génération d'images, permettant d'obtenir une gamme diversifiée de visuels à partir d'une seule saisie de texte. Cela surpasse la collection d’images du monde réel en termes d’efficacité et de polyvalence. Il s'avère particulièrement utile dans des tâches spécialisées, telles que l'équilibrage de la variété d'images dans la reconnaissance longue traîne, ce qui constitue un complément pratique à l'utilisation d'images réelles pour la formation », explique Fan. « Notre travail représente un pas en avant dans l'apprentissage visuel, vers l'objectif d'offrir des alternatives de formation rentables tout en soulignant la nécessité d'améliorer continuellement la qualité et la synthèse des données. »
« L'un des rêves de l'apprentissage génératif des modèles a longtemps été de pouvoir générer des données utiles pour la formation de modèles discriminants », déclare David Fleet, chercheur chez Google DeepMind et professeur d'informatique à l'Université de Toronto, qui n'a pas participé à l'article. « Bien que nous ayons vu quelques signes de vie, le rêve est resté insaisissable, en particulier dans les domaines complexes à grande échelle comme les images haute résolution. Cet article fournit, pour la première fois à ma connaissance, la preuve irréfutable que le rêve est en train de devenir réalité. Ils montrent que l’apprentissage contrasté à partir de quantités massives de données d’images synthétiques peut produire des représentations qui surpassent celles apprises à partir de données réelles à grande échelle, avec le potentiel d’améliorer une myriade de tâches de vision en aval.
Fan est rejoint par Yonglong Tian PhD '22 en tant qu'auteurs principaux de l'article, ainsi que par Phillip Isola, professeur agrégé de génie électrique et d'informatique au MIT et chercheur principal du CSAIL ; Huiwen Chang, chercheur de Google et membre du personnel technique d'OpenAI ; et Dilip Krishnan, chercheur scientifique chez Google. L’équipe présentera StableRep à la conférence 2023 sur les systèmes de traitement de l’information neuronale (NeurIPS) à la Nouvelle-Orléans.