Internet contient une énorme quantité de vidéos accessibles au public dont nous pouvons tirer des leçons. Vous pouvez regarder une personne faire une magnifique présentation, un artiste numérique dessiner un magnifique coucher de soleil et un joueur de Minecraft construire une maison complexe. Cependant, ces vidéos ne fournissent qu'un enregistrement de quoi c'est arrivé mais pas précisément comment cela a été réalisé, c'est-à-dire que vous ne connaîtrez pas la séquence exacte des mouvements de la souris et des touches enfoncées. Si nous souhaitons construire à grande échelle modèles de fondation dans ces domaines comme nous l'avons fait dans le langage avec Google Tagce manque d'étiquettes d'action pose un nouveau défi qui n'est pas présent dans le domaine linguistique, où les « étiquettes d'action » sont simplement les mots suivants dans une phrase.
Afin d'utiliser la richesse des données vidéo non étiquetées disponibles sur Internet, nous introduisons une méthode d'apprentissage par imitation nouvelle, mais simple et semi-supervisée : le Video PreTraining (VPT). Nous commençons par collecter un petit ensemble de données auprès des entrepreneurs où nous enregistrons non seulement leur vidéo, mais également les actions qu'ils ont entreprises, qui dans notre cas sont des pressions sur des touches et des mouvements de souris. Avec ces données, nous formons un modèle de dynamique inverse (IDM), qui prédit l'action entreprise à chaque étape de la vidéo. Il est important de noter que l'IDM peut utiliser le passé et futur informations pour deviner l’action à chaque étape. Cette tâche est beaucoup plus simple et nécessite donc beaucoup moins de données que la tâche de clonage comportemental consistant à prédire les actions données. images vidéo passées uniquement, ce qui nécessite de déduire ce que la personne veut faire et comment l'accomplir. Nous pouvons ensuite utiliser l’IDM formé pour étiqueter un ensemble de données beaucoup plus vaste de vidéos en ligne et apprendre à agir via le clonage comportemental.