L'ancrage du langage sur la vision est un problème fondamental pour de nombreux systèmes d'IA du monde réel, comme la récupération d'images ou la génération de descriptions pour les malvoyants. Pour réussir ces tâches, les modèles doivent relier différents aspects du langage, tels que les objets et les verbes, aux images. Par exemple, pour faire la distinction entre les deux images de la colonne du milieu ci-dessous, les modèles doivent faire la différence entre les verbes « attraper » et « donner un coup de pied ». La compréhension des verbes est particulièrement difficile car elle nécessite non seulement de reconnaître les objets, mais également la manière dont les différents objets d'une image sont liés les uns aux autres. Pour surmonter cette difficulté, nous introduisons l'ensemble de données SVO-Probes et l'utilisons pour sonder des modèles de langage et de vision pour la compréhension des verbes.
En particulier, nous considérons les modèles de transformateurs multimodaux (par exemple, Lu et al., 2019 ; Chen et al., 2020 ; Tan et Bansal, 2019 ; Li et al., 2020), qui ont fait leurs preuves sur une variété de langages et de visions. Tâches. Cependant, malgré de solides performances lors des tests de référence, il n’est pas clair si ces modèles ont une compréhension multimodale fine. En particulier, des travaux antérieurs montrent que les modèles de langage et de vision peuvent réussir sans compréhension multimodale : par exemple, répondre à des questions sur des images basées uniquement sur des priorités de langage (Agrawal et al., 2018) ou sur des objets « hallucinants » qui ne sont pas dans l'image. lors du sous-titrage des images (Rohrbach et al., 2018). Pour anticiper les limites du modèle, travaillez comme Shekhar et al. proposer des évaluations spécialisées pour sonder systématiquement les modèles pour la compréhension du langage. Cependant, les ensembles de sondes antérieurs sont limités en nombre d'objets et de verbes. Nous avons développé SVO-Probes pour mieux évaluer les limitations potentielles de la compréhension des verbes dans les modèles actuels.
SVO-Probes comprend 48 000 paires image-phrase et teste la compréhension de plus de 400 verbes. Chaque phrase peut être divisée en triplet
Pour créer des sondes SVO, nous interroger une recherche d'image avec des triplets SVO issus d'un ensemble de données de formation commun, Conceptual Captions (Sharma et al. 2018). Étant donné que la recherche d'images peut être bruyante, une étape d'annotation préliminaire filtre les images récupérées pour garantir que nous disposons d'un ensemble propre de paires image-SVO. Étant donné que les transformateurs sont formés sur des paires image-phrase, et non sur des paires image-SVO, nous avons besoin de paires image-phrase pour sonder notre modèle. Pour collecter des phrases décrivant chaque image, les annotateurs écrivent une courte phrase pour chaque image incluant le triplet SVO. Par exemple, étant donné le triplet SVO
Nous examinons si les transformateurs multimodaux peuvent classer avec précision les exemples comme positifs ou négatifs. Le graphique à barres ci-dessous illustre nos résultats. Notre ensemble de données est un défi : notre modèle de transformateur multimodal standard atteint une précision globale de 64,3 % (la chance est de 50 %). Alors que la précision est respectivement de 67,0 % et 73,4 % sur les sujets et les objets, la performance tombe à 60,8 % sur les verbes. Ce résultat montre que la reconnaissance des verbes est effectivement un défi pour les modèles de vision et de langage.
Nous explorons également quelles architectures de modèles fonctionnent le mieux sur notre ensemble de données. Étonnamment, les modèles avec une modélisation d'image plus faible fonctionnent mieux que le modèle de transformateur standard. Une hypothèse est que notre modèle standard (avec une plus grande capacité de modélisation d’images) surajuste la rame. Comme ces deux modèles fonctionnent moins bien sur d'autres tâches de langage et de vision, notre tâche de sonde ciblée met en lumière les faiblesses du modèle qui ne sont pas observées sur d'autres tests de référence.
Dans l’ensemble, nous constatons que malgré des performances impressionnantes lors des tests de performance, les transformateurs multimodaux ont encore du mal à comprendre à grain fin, en particulier la compréhension à grain fin des verbes. Nous espérons que SVO-Probes pourra contribuer à l’exploration de la compréhension des verbes dans les modèles de langage et de vision et inspirer des ensembles de données de sonde plus ciblés.
Visitez nos sondes SVO référence et des modèles sur GitHub : benchmark et modèles.