Cet article a été accepté lors de l'atelier Je ne peux pas croire que ce n'est pas mieux ! (ICBINB) à NeurIPS 2023.
Les progrès récents dans les tokeniseurs d'images, tels que VQ-VAE, ont permis la génération de texte en image à l'aide de méthodes auto-régressives, similaires à la modélisation du langage. Cependant, ces méthodes doivent encore exploiter les modèles linguistiques pré-entraînés, malgré leur adaptabilité à diverses tâches en aval. Dans ce travail, nous explorons cette lacune et constatons que les modèles linguistiques pré-entraînés offrent une aide limitée dans la génération auto-régressive de texte en image. Nous fournissons une double explication en analysant les jetons de chaque modalité. Premièrement, nous démontrons que les jetons d’image possèdent une sémantique significativement différente de celle des jetons de texte, ce qui rend les modèles de langage pré-entraînés pas plus efficaces pour les modéliser que ceux initialisés aléatoirement. Deuxièmement, les jetons de texte dans les ensembles de données image-texte sont trop simples par rapport aux données de pré-entraînement des modèles de langage normaux, ce qui fait que tout petit modèle de langage initialisé de manière aléatoire atteint la même perplexité que les plus grands pré-entraînés, et provoque une dégradation catastrophique des modèles de langage. ' aptitude.