Nous montrons que les modèles de langage autorégressifs peuvent apprendre à remplir du texte après avoir appliqué une transformation simple à l'ensemble de données, qui déplace simplement une étendue de texte du milieu d'un document à sa fin. Bien que cette augmentation des données ait suscité beaucoup d'intérêt ces dernières années, nous fournissons de nombreuses preuves que la formation de modèles avec une grande fraction de données transformées de cette manière ne nuit pas à la capacité générative originale de gauche à droite, telle que mesurée par la perplexité et les évaluations d'échantillonnage à travers une large gamme d'échelles. Compte tenu de l'utilité, de la simplicité et de l'efficacité des modèles de formation au remplissage du milieu (FIM), nous suggérons que les futurs modèles de langage autorégressifs soient formés avec FIM par défaut. À cette fin, nous effectuons une série d'ablations sur des hyperparamètres clés, tels que la fréquence de transformation des données, la structure de la transformation et la méthode de sélection de la durée de remplissage. Nous utilisons ces ablations pour prescrire des paramètres par défaut forts et les meilleures pratiques pour former les modèles FIM. Nous avons publié notre meilleur modèle de remplissage formé avec les meilleures pratiques de notre API et publions nos références de remplissage pour faciliter les recherches futures.