De puissants algorithmes d'apprentissage automatique connus sous le nom de modèles de vision et de langage, qui apprennent à faire correspondre le texte avec les images, ont montré des résultats remarquables lorsqu'on leur a demandé de générer des sous-titres ou de résumer des vidéos.
Bien que ces modèles excellent dans l’identification des objets, ils ont souvent du mal à comprendre des concepts tels que les attributs des objets ou la disposition des éléments dans une scène. Par exemple, un modèle de vision et de langage peut reconnaître la tasse et la table dans une image, mais ne pas comprendre que la tasse est posée sur la table.
Des chercheurs du MIT, du MIT-IBM Watson AI Lab et d'ailleurs ont démontré une nouvelle technique qui utilise des données générées par ordinateur pour aider les modèles de vision et de langage à surmonter cette lacune.
Les chercheurs ont créé un ensemble de données synthétiques d’images représentant un large éventail de scénarios, de dispositions d’objets et d’actions humaines, associées à des descriptions textuelles détaillées. Ils ont utilisé cet ensemble de données annotées pour « corriger » les modèles de vision et de langage afin de pouvoir apprendre les concepts plus efficacement. Leur technique garantit que ces modèles peuvent toujours faire des prédictions précises lorsqu’ils voient des images réelles.
Lorsqu’ils ont testé les modèles sur la compréhension des concepts, les chercheurs ont constaté que leur technique améliorait la précision jusqu’à 10 %. Cela pourrait améliorer les systèmes qui sous-titrent automatiquement les vidéos ou améliorer les modèles qui fournissent des réponses en langage naturel aux questions sur les images, avec des applications dans des domaines tels que le commerce électronique ou les soins de santé.
« Avec ce travail, nous allons au-delà des noms dans le sens où nous allons au-delà des simples noms d'objets pour nous intéresser davantage au concept sémantique d'un objet et de tout ce qui l'entoure. Notre idée était que, lorsqu'un modèle d'apprentissage automatique voit des objets dans de nombreuses dispositions différentes, il aura une meilleure idée de l'importance de la disposition dans une scène », explique Khaled Shehada, étudiant diplômé au Département de génie électrique et d'informatique et co-auteur d'un papier sur cette technique.
Shehada a rédigé l'article avec l'auteur principal Paola Cascante-Bonilla, étudiante diplômée en informatique à l'Université Rice ; Aude Oliva, directrice de l'engagement stratégique de l'industrie au MIT Schwarzman College of Computing, directrice du MIT-IBM Watson AI Lab au MIT et chercheuse scientifique principale au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) ; l'auteur principal Leonid Karlinsky, membre du personnel de recherche du MIT-IBM Watson AI Lab ; et d'autres au MIT, au MIT-IBM Watson AI Lab, à Georgia Tech, à l'Université Rice, à l'École des Ponts, au Weizmann Institute of Science et à IBM Research. Le document sera présenté à la Conférence internationale sur la vision par ordinateur.
Se concentrer sur les objets
Les modèles de vision et de langage apprennent généralement à identifier les objets dans une scène et peuvent finir par ignorer les attributs des objets, tels que la couleur et la taille, ou les relations de position, telles que l'objet qui se trouve au-dessus d'un autre objet.
Cela est dû à la méthode avec laquelle ces modèles sont souvent formés, appelée apprentissage contrastif. Cette méthode de formation consiste à forcer un modèle à prédire la correspondance entre les images et le texte. Lorsque l’on compare des images naturelles, les objets de chaque scène ont tendance à provoquer les différences les plus frappantes. (Peut-être qu'une image montre un cheval dans un champ tandis que la seconde montre un voilier sur l'eau.)
« Chaque image pourrait être définie de manière unique par les objets qu’elle contient. Ainsi, lorsque vous effectuez un apprentissage contrastif, le simple fait de vous concentrer sur les noms et les objets résoudrait le problème. Pourquoi le modèle ferait-il les choses différemment ? » dit Karlinsky.
Les chercheurs ont cherché à atténuer ce problème en utilisant des données synthétiques pour affiner un modèle de vision et de langage. Le processus de réglage fin consiste à peaufiner un modèle déjà formé pour améliorer ses performances sur une tâche spécifique.
Ils ont utilisé un ordinateur pour créer automatiquement des vidéos synthétiques avec divers environnements et objets 3D, tels que des meubles et des bagages, et ont ajouté des avatars humains qui interagissaient avec les objets.
À l’aide d’images individuelles de ces vidéos, ils ont généré près de 800 000 images photoréalistes, puis ont associé chacune d’elles à une légende détaillée. Les chercheurs ont développé une méthodologie pour annoter chaque aspect de l’image afin de capturer de manière claire et cohérente les attributs des objets, les relations de position et les interactions homme-objet dans des légendes denses.
Parce que les chercheurs ont créé les images, ils ont pu contrôler l’apparence et la position des objets, ainsi que le sexe, les vêtements, les poses et les actions des avatars humains.
« Les données synthétiques permettent beaucoup de diversité. Avec des images réelles, vous n’aurez peut-être pas beaucoup d’éléphants dans une pièce, mais avec des données synthétiques, vous pourriez avoir un éléphant rose dans une pièce avec un humain, si vous le souhaitez », explique Cascante-Bonilla.
Les données synthétiques présentent également d’autres avantages. Leur génération est moins coûteuse que les données réelles, mais les images sont très photoréalistes. Ils préservent également la vie privée car aucun humain réel n’est montré dans les images. Et comme les données sont produites automatiquement par un ordinateur, elles peuvent être générées rapidement en quantités massives.
En utilisant différents points de vue de caméra ou en modifiant légèrement les positions ou les attributs des objets, les chercheurs ont créé un ensemble de données avec une bien plus grande variété de scénarios que ce que l’on trouverait dans un ensemble de données naturel.
Ajustez, mais n'oubliez pas
Cependant, lorsque l’on affine un modèle avec des données synthétiques, il existe un risque que le modèle « oublie » ce qu’il a appris lors de sa formation initiale avec des données réelles.
Les chercheurs ont utilisé quelques techniques pour éviter ce problème, telles que l'ajustement des données synthétiques afin que les couleurs, l'éclairage et les ombres correspondent plus étroitement à ceux trouvés dans les images naturelles. Ils ont également apporté des ajustements au fonctionnement interne du modèle après un réglage fin afin de réduire davantage tout oubli.
Leur ensemble de données synthétiques et leur stratégie de réglage précis ont amélioré jusqu'à 10 % la capacité des modèles de vision et de langage populaires à reconnaître avec précision les concepts. Dans le même temps, les modèles n’ont pas oublié ce qu’ils avaient déjà appris.
Maintenant qu’ils ont montré comment les données synthétiques peuvent être utilisées pour résoudre ce problème, les chercheurs souhaitent identifier des moyens d’améliorer la qualité visuelle et la diversité de ces données, ainsi que la physique sous-jacente qui rend les scènes synthétiques réalistes. En outre, ils prévoient de tester les limites de l’évolutivité et de déterminer si l’amélioration du modèle commence à stagner avec des ensembles de données synthétiques plus grands et plus diversifiés.
Cette recherche est financée en partie par la US Defense Advanced Research Projects Agency, la National Science Foundation et le MIT-IBM Watson AI Lab.