*=Contributeurs égaux
Préserver la dynamique de formation quelle que soit la taille des lots est un outil important pour l’apprentissage automatique pratique, car il permet un compromis entre la taille du lot et le temps d’horloge. Ce compromis est généralement rendu possible par une règle de mise à l'échelle ; par exemple, dans la descente de gradient stochastique, il faut adapter le taux d'apprentissage de manière linéaire avec la taille du lot. Un autre outil d'apprentissage automatique important est le modèle EMA, une copie fonctionnelle d'un modèle cible dont les paramètres se rapprochent de ceux de son modèle cible selon une moyenne mobile exponentielle (EMA) à une vitesse paramétrée par un hyperparamètre d'impulsion. Ce modèle EMA peut améliorer la robustesse et la généralisation de l'apprentissage supervisé, stabiliser le pseudo-étiquetage et fournir un signal d'apprentissage pour l'apprentissage auto-supervisé (SSL). Les travaux antérieurs n'ont pas pris en compte l'optimisation de l'EMA du modèle lors de la mise à l'échelle, ce qui a conduit à des dynamiques de formation différentes selon la taille des lots et à des performances de modèle inférieures. Dans ce travail, nous fournissons une règle de mise à l'échelle pour l'optimisation en présence d'un modèle EMA et démontrons la validité de la règle sur une gamme d'architectures, d'optimiseurs et de modalités de données. Nous montrons également la validité de la règle où le modèle EMA contribue à l'optimisation du modèle cible, nous permettant d'entraîner des méthodes de pseudo-étiquetage et SSL basées sur EMA pour des lots de petite et grande taille. Pour SSL, nous permettons la formation de BYOL jusqu'à une taille de lot de 24 576 sans sacrifier les performances, une réduction du temps d'horloge murale de 6 fois dans des paramètres matériels idéalisés.