Au cours des dernières années, les transformateurs autorégressifs ont apporté un flux constant de percées dans la modélisation générative. Ces modèles génèrent chaque élément d’un échantillon – les pixels d’une image, les caractères d’un texte (généralement en morceaux « jetons », les échantillons d’une forme d’onde audio, etc.) en prédisant un élément après l’autre. Lors de la prédiction de l'élément suivant, le modèle peut revenir sur ceux qui ont été créés précédemment.
Cependant, chacune des couches d'un Transformer devient de plus en plus coûteuse à mesure que davantage d'éléments sont utilisés en entrée, et les praticiens ne peuvent se permettre d'entraîner des Transformers approfondis que sur des séquences ne dépassant pas environ 2 048 éléments de longueur. Ainsi, la plupart des modèles basés sur Transformer ignorent tous les éléments au-delà du passé le plus récent (environ 1 500 mots ou 1/6 d'une petite image) lors d'une prédiction.
En revanche, notre récemment développé Modèles de perception donnent d'excellents résultats sur une variété de tâches du monde réel avec jusqu'à environ 100 000 éléments. Les percepteurs utilisent une attention croisée pour coder les entrées dans un espace latent, dissociant ainsi les exigences de calcul des entrées de la profondeur du modèle. Les percepteurs dépensent également un coût fixe, quelle que soit la taille de l’entrée, à presque chaque couche.
Alors que le codage en espace latent gère tous les éléments en un seul passage, la génération autorégressive suppose que le traitement s'effectue un élément à la fois. Pour résoudre ce problème, Perceiver AR propose une solution simple : aligner les latents un par un avec les éléments finaux de l'entrée et masquer soigneusement l'entrée afin que les latents ne voient que les éléments antérieurs.
Le résultat est une architecture (illustré ci-dessus) qui prend en charge des entrées jusqu'à 50 fois plus longues que les transformateurs standard, tout en se déployant aussi largement (et essentiellement aussi facilement) que les transformateurs standard à décodeur uniquement.
Le Perceiver AR s'adapte considérablement mieux à la taille que les modèles Transformers et Transformer-XL standard sur une gamme de longueurs de séquence en termes réels. Cette propriété nous permet de construire des modèles à contexte long très efficaces. Par exemple, nous constatons qu'un Perceiver AR à 60 couches avec une longueur de contexte de 8192 surpasse un Transformer-XL à 42 couches sur une tâche de génération de la longueur d'un livre, tout en fonctionnant plus rapidement en termes d'horloge murale réelle.
Sur des benchmarks de génération d'images à contexte long (ImageNet 64×64), de langage (PG-19) et de musique (MAESTRO) standard, Perceiver AR produit des résultats de pointe. L'augmentation du contexte d'entrée en dissociant la taille d'entrée du budget de calcul conduit à plusieurs résultats intrigants :
- Le budget de calcul peut être adapté au moment de l'évaluation, ce qui nous permet de dépenser moins et de dégrader progressivement la qualité ou de dépenser plus pour une génération améliorée.
- Un contexte plus large permet à Perceiver AR de surpasser Transformer-XL, même en dépensant la même chose en calcul. Nous constatons qu'un contexte plus large conduit à des performances améliorées du modèle, même à une échelle abordable (~ 1 milliard de paramètres).
- La qualité des échantillons de Perceiver AR est beaucoup moins sensible à l'ordre dans lequel il génère les éléments. Cela rend Perceiver AR facile à appliquer aux paramètres qui n'ont pas un ordre naturel de gauche à droite, comme les données comme les images, avec une structure qui s'étend sur plus d'une dimension.
À l'aide d'un ensemble de données de musique pour piano, nous avons entraîné Perceiver AR à générer de nouveaux morceaux de musique à partir de zéro. Parce que chaque nouvelle note est prédite sur la base de la séquence complète de notes précédentes, Perceiver AR est capable de produire des morceaux avec un haut niveau de cohérence mélodique, harmonique et rythmique :
En savoir plus sur l'utilisation de Perceiver AR :
- Téléchargez le code JAX pour la formation de Perceiver AR sur GitHub
- Lisez notre article sur arXiv
- Découvrez notre présentation phare sur CIML 2022
Voir le Google Magenta article de blog avec plus de musique !