Au cours des dernières années, la modélisation du langage s'est concentrée sur l'amélioration des performances en augmentant le nombre de paramètres dans les modèles basés sur des transformateurs. Cette approche a conduit à des résultats impressionnants et à des performances de pointe dans de nombreuses tâches de traitement du langage naturel.
Nous avons également poursuivi cette ligne de recherche chez DeepMind et avons récemment présenté Gopher, un modèle de 280 milliards de paramètres qui a établi des performances de pointe sur un large éventail de tâches, notamment la modélisation du langage, la compréhension écrite et la réponse aux questions. Depuis, un modèle encore plus grand, nommé Megatron-Turing NLG, a été publié avec 530 milliards de paramètres.
En raison du coût important de la formation de ces grands modèles, il est primordial d'estimer la meilleure configuration de formation possible pour éviter de gaspiller des ressources. En particulier, le coût de calcul de formation pour les transformateurs est déterminé par deux facteurs : la taille du modèle et le nombre de jetons de formation.
La génération actuelle de grands modèles de langage a alloué des ressources de calcul accrues pour augmenter le nombre de paramètres des grands modèles et maintenir la taille des données de formation à environ 300 milliards de jetons. Dans ce travail, nous étudions empiriquement le compromis optimal entre l'augmentation de la taille du modèle et la quantité de données d'entraînement avec des ressources de calcul croissantes. Plus précisément, nous posons la question : « Quelle est la taille optimale du modèle et le nombre de jetons de formation pour un budget de calcul donné ? Pour répondre à cette question, nous formons des modèles de différentes tailles et avec différents nombres de jetons, et estimons ce compromis de manière empirique.
Notre principale conclusion est que les grands modèles de langage actuels sont beaucoup trop volumineux pour leur budget de calcul et ne sont pas formés sur suffisamment de données. En fait, nous constatons que pour le nombre de FLOP de formation utilisés pour former Gopherun modèle 4x plus petit entraîné sur 4x plus de données aurait été préférable.
Nous testons notre hypothèse de mise à l'échelle des données par formation Chinchilla, un modèle de 70 milliards de paramètres formé pour 1,3 billion de jetons. Bien que le coût de calcul de la formation pour Chinchilla et Gopher soit le même, nous constatons qu'il surpasse Gopher et d'autres grands modèles de langage sur presque toutes les tâches mesurées, malgré ses 70 milliards de paramètres contre 280 milliards pour Gopher.
Après la sortie de Chinchilla, un modèle nommé PaLM a été publié avec 540 milliards de paramètres et formé sur 768 milliards de jetons. Ce modèle a été formé avec environ 5 fois le budget de calcul de Chinchilla et a surpassé Chinchilla sur une gamme de tâches. Bien que le corpus de formation soit différent, nos méthodes prédisent qu'un tel modèle formé sur nos données surpasserait Chinchilla bien qu'il ne soit pas optimal en termes de calcul. Compte tenu du budget de calcul PaLM, nous prévoyons qu'un modèle de 140 milliards de paramètres formés sur 3 000 milliards de jetons sera optimal et plus efficace pour l'inférence.
Un avantage supplémentaire des modèles plus petits et plus performants est que le temps d'inférence et les coûts de mémoire sont réduits, ce qui rend l'interrogation des modèles à la fois plus rapide et possible sur moins de matériel. En pratique, même si les FLOP d'entraînement entre Gopher et Chinchilla sont les mêmes, le coût d'utilisation de Chinchilla est nettement inférieur, en plus de ses performances supérieures. D’autres optimisations simples pourraient être possibles, capables de continuer à générer des gains importants.