Ces dernières années, des gains de performances significatifs dans la modélisation de langage autorégressive ont été obtenus en augmentant le nombre de paramètres dans les modèles Transformer. Cela a conduit à une augmentation considérable du coût énergétique de la formation et a abouti à une génération de « grands modèles de langage » (LLM) denses avec plus de 100 milliards de paramètres. Simultanément, de vastes ensembles de données contenant des milliards de mots ont été collectés pour faciliter la formation de ces LLM.
Nous explorons une voie alternative pour améliorer les modèles de langage : nous augmentons les transformateurs avec la récupération d'une base de données de passages de texte comprenant des pages Web, des livres, des actualités et du code. Nous appelons notre méthode RETRO, pour « Retrieval Enhanced TRansfOrmers ».
Dans les modèles de langage de transformateur traditionnels, les avantages de la taille du modèle et de la taille des données sont liés : tant que l'ensemble de données est suffisamment grand, les performances de modélisation du langage sont limitées par la taille du modèle. Cependant, avec RETRO, le modèle ne se limite pas aux données vues lors de la formation : il a accès à l'ensemble des données de formation via le mécanisme de récupération. Il en résulte des gains de performances significatifs par rapport à un Transformateur standard avec le même nombre de paramètres. Nous montrons que la modélisation du langage s'améliore continuellement à mesure que nous augmentons la taille de la base de données de récupération, au moins jusqu'à 2 000 milliards de jetons, soit 175 durées de vie complètes de lecture continue.
Pour chaque passage de texte (environ un paragraphe d'un document), une recherche du plus proche voisin est effectuée qui renvoie les séquences similaires trouvées dans la base de données d'entraînement, ainsi que leur suite. Ces séquences aident à prédire la suite du texte saisi. L'architecture RETRO entrelace une attention personnelle régulière au niveau du document et une attention croisée avec les voisins récupérés à un niveau de passage plus fin. Il en résulte des suites à la fois plus précises et plus factuelles. De plus, RETRO augmente l'interprétabilité des prédictions du modèle et fournit une voie pour des interventions directes via la base de données de récupération pour améliorer la sécurité de la suite du texte. Dans nos expériences sur Pile, une référence de modélisation de langage standard, un modèle RETRO de 7,5 milliards de paramètres surpasse le paramètre Jurassic-1 de 175 milliards de paramètres sur 10 ensembles de données sur 16 et surpasse le 280B Gopher sur 9 ensembles de données sur 16.
Ci-dessous, nous montrons deux échantillons de notre modèle de base 7B et de notre modèle RETRO 7,5B qui soulignent à quel point les échantillons de RETRO sont plus factuels et restent plus pertinents que l'échantillon de base.