Techniques de formation de grands réseaux de neurones

Dernière mise à jour: 2023/12/10 at 7:13 PM

lecture minimale

Le parallélisme des pipelines divise un modèle « verticalement » par couche. Il est également possible de diviser « horizontalement » certaines opérations au sein d'une couche, généralement appelée Tenseur parallèle entraînement. Pour de nombreux modèles modernes (comme le Transformateur), le goulot d'étranglement du calcul consiste à multiplier une matrice de lots d'activation par une matrice de poids importante. Multiplication matricielle peut être considéré comme des produits scalaires entre des paires de lignes et de colonnes ; il est possible de calculer des produits scalaires indépendants sur différents GPU, ou de calculer des parties de chaque produit scalaire sur différents GPU et de résumer les résultats. Quelle que soit la stratégie, nous pouvons découper la matrice de pondération en « fragments » de taille égale, héberger chaque fragment sur un GPU différent et utiliser ce fragment pour calculer la partie pertinente du produit matriciel global avant de communiquer ultérieurement pour combiner les résultats.

Un exemple est Mégatron-LMqui parallélise les multiplications matricielles au sein des couches d'auto-attention et MLP du Transformer. PTD-P utilise le parallélisme du tenseur, des données et du pipeline ; son calendrier de pipeline attribue plusieurs couches non consécutives à chaque appareil, réduisant ainsi la surcharge des bulles au prix d'une communication réseau accrue.

Parfois, l'entrée dans le réseau peut être parallélisée sur une dimension avec un degré élevé de calcul parallèle par rapport à la communication croisée. Parallélisme de séquence est l'une de ces idées, où une séquence d'entrée est divisée dans le temps en plusieurs sous-exemples, diminuant proportionnellement la consommation maximale de mémoire en permettant au calcul de procéder avec des exemples de taille plus granulaire.