*=Contributeurs égaux
Les modèles actuels d’apprentissage automatique pour la vision sont souvent hautement spécialisés et limités à une seule modalité et tâche. En revanche, les grands modèles de langage récents présentent un large éventail de capacités, laissant entrevoir la possibilité de modèles tout aussi polyvalents en vision par ordinateur. Dans cet article, nous faisons un pas dans cette direction et proposons un programme de formation multimodal appelé 4M. Il consiste à entraîner un seul encodeur-décodeur Transformer unifié à l'aide d'un objectif de modélisation masqué sur un large éventail de modalités d'entrée/sortie, notamment le texte, les images, les modalités géométriques et sémantiques, ainsi que les cartes de caractéristiques des réseaux neuronaux. 4M atteint l'évolutivité en unifiant l'espace de représentation de toutes les modalités en les mappant en jetons discrets et en effectuant une modélisation masquée multimodale sur un petit sous-ensemble aléatoire de jetons.
4M conduit à des modèles qui présentent plusieurs capacités clés : (1) ils peuvent effectuer un ensemble diversifié de tâches de vision prêtes à l'emploi, (2) ils excellent lorsqu'ils sont affinés pour des tâches en aval invisibles ou de nouvelles modalités de saisie, et (3) ils peut fonctionner comme un modèle génératif pouvant être conditionné à des modalités arbitraires, permettant une grande variété de capacités d'édition multimodales expressives avec une flexibilité remarquable.
Grâce à des analyses expérimentales, nous démontrons le potentiel de 4M pour former des modèles de base polyvalents et évolutifs pour les tâches de vision, ouvrant la voie à une exploration plus approfondie de l'apprentissage multimodal pour la vision et d'autres domaines.