Inspirés par les progrès de la modélisation linguistique à grande échelle, nous appliquons une approche similaire pour construire un agent généraliste unique au-delà du domaine des sorties textuelles. L’agent, que nous appelons Gato, fonctionne comme une politique généraliste multimodale, multitâche et multi-incarnations. Le même réseau avec les mêmes poids peut jouer à Atari, sous-titrer des images, discuter, empiler des blocs avec un vrai bras de robot et bien plus encore, en décidant en fonction de son contexte s'il doit afficher du texte, des couples d'articulation, des pressions sur des boutons ou d'autres jetons.
Au cours de la phase de formation de Gato, les données de différentes tâches et modalités sont sérialisées en une séquence plate de jetons, regroupées et traitées par un réseau neuronal de transformateur similaire à un grand modèle de langage. La perte est masquée de sorte que Gato prédit uniquement les cibles d'action et de texte.
Lors du déploiement de Gato, une invite, telle qu'une démonstration, est symbolisée, formant la séquence initiale. Ensuite, l'environnement génère la première observation, qui est également symbolisée et ajoutée à la séquence. Gato échantillonne le vecteur d'action de manière autorégressive, un jeton à la fois.
Une fois que tous les jetons comprenant le vecteur d'action ont été échantillonnés (déterminés par la spécification d'action de l'environnement), l'action est décodée et envoyée à l'environnement qui effectue une étape et produit une nouvelle observation. Ensuite, la procédure se répète. Le modèle voit toujours toutes les observations et actions précédentes dans sa fenêtre contextuelle de 1 024 jetons.
Gato est formé sur un grand nombre d'ensembles de données comprenant l'expérience des agents dans des environnements simulés et réels, en plus d'une variété d'ensembles de données de langage naturel et d'images. Le nombre de tâches pour lesquelles les performances du modèle Gato pré-entraîné sont supérieures à un pourcentage du score expert, regroupées par domaine, est indiqué ici.
Les images suivantes montrent également comment le modèle Gato pré-entraîné avec les mêmes poids peut effectuer des sous-titres d'images, engager un dialogue interactif et contrôler un bras de robot, entre autres tâches.