Recherche
Robotic Transformer 2 (RT-2) est un nouveau modèle vision-langage-action (VLA) qui apprend à la fois des données Web et robotiques et traduit ces connaissances en instructions généralisées pour le contrôle robotique.
Les modèles vision-langage (VLM) de grande capacité sont formés sur des ensembles de données à l'échelle du Web, ce qui rend ces systèmes remarquablement efficaces pour reconnaître des modèles visuels ou linguistiques et fonctionner dans différentes langues. Mais pour que les robots atteignent un niveau de compétence similaire, ils devraient collecter des données de première main sur chaque objet, environnement, tâche et situation.
Dans notre papiernous introduisons Robotic Transformer 2 (RT-2), un nouveau modèle vision-langage-action (VLA) qui apprend à partir des données Web et robotiques, et traduit ces connaissances en instructions généralisées pour le contrôle robotique, tout en conservant des capacités à l'échelle du Web.
Ce travail s'appuie sur Robotic Transformer 1 (RT-1), un modèle entraîné sur des démonstrations multitâches, qui peut apprendre des combinaisons de tâches et d'objets vus dans les données robotiques. Plus précisément, notre travail a utilisé des données de démonstration du robot RT-1 collectées avec 13 robots sur 17 mois dans un environnement de cuisine de bureau.
RT-2 présente des capacités de généralisation améliorées et une compréhension sémantique et visuelle au-delà des données robotiques auxquelles il a été exposé. Cela inclut l'interprétation de nouvelles commandes et la réponse aux commandes de l'utilisateur en effectuant un raisonnement rudimentaire, tel qu'un raisonnement sur les catégories d'objets ou des descriptions de haut niveau.
Nous montrons également que l'intégration du raisonnement en chaîne de pensée permet à RT-2 d'effectuer un raisonnement sémantique en plusieurs étapes, comme décider quel objet pourrait être utilisé comme marteau improvisé (une pierre) ou quel type de boisson convient le mieux à une personne fatiguée. (une boisson énergisante).
Adaptation des VLM pour le contrôle robotique
RT-2 s'appuie sur des VLM qui prennent une ou plusieurs images en entrée et produisent une séquence de jetons qui, de manière conventionnelle, représentent du texte en langage naturel. De tels VLM ont été formé avec succès sur des données à l'échelle du Web pour effectuer des tâches telles que la réponse visuelle à des questions, le sous-titrage d'images ou la reconnaissance d'objets. Dans notre travail, nous adaptons le modèle Pathways Language and Image (PaLI-X) et le modèle de langage Pathways incorporé (PaLM-E) pour servir de colonne vertébrale à RT-2.
Pour contrôler un robot, il doit être entraîné à produire des actions. Nous relevons ce défi en représentant les actions sous forme de jetons dans la sortie du modèle (similaires aux jetons de langage) et décrivons les actions sous forme de chaînes pouvant être traitées par la norme. tokeniseurs en langage naturelmontré ici :
La chaîne commence par un indicateur qui indique s'il faut continuer ou terminer l'épisode en cours, sans exécuter les commandes suivantes, et suit avec les commandes pour changer la position et la rotation de l'effecteur final, ainsi que l'extension souhaitée de la pince du robot.
Nous utilisons la même version discrétisée des actions du robot que dans RT-1 et montrons que sa conversion en représentation sous forme de chaîne permet d'entraîner des modèles VLM sur des données robotiques – car les espaces d'entrée et de sortie de tels modèles n'ont pas besoin d'être modifié.
Généralisation et compétences émergentes
Nous avons réalisé une série d'expériences qualitatives et quantitatives sur nos modèles RT-2, sur plus de 6 000 essais robotiques. En explorant les capacités émergentes du RT-2, nous avons d'abord recherché des tâches qui nécessiteraient de combiner les connaissances issues des données à l'échelle du Web et l'expérience du robot, puis avons défini trois catégories de compétences : la compréhension des symboles, le raisonnement et la reconnaissance humaine.
Chaque tâche nécessitait la compréhension des concepts visuels-sémantiques et la capacité d'effectuer un contrôle robotique pour opérer sur ces concepts. Des commandes telles que « ramasser le sac sur le point de tomber de la table » ou « déplacer la banane jusqu'à la somme de deux plus un » – où le robot est invité à effectuer une tâche de manipulation sur des objets ou des scénarios jamais vus dans les données robotiques – sont obligatoires. connaissances traduites à partir de données Web pour fonctionner.
Dans toutes les catégories, nous avons observé une augmentation des performances de généralisation (amélioration de plus de 3 fois) par rapport aux références précédentes, telles que les modèles RT-1 précédents et les modèles comme Visual Cortex (VC-1), qui ont été pré-entraînés sur de grands ensembles de données visuelles.
Nous avons également effectué une série d'évaluations quantitatives, en commençant par les tâches RT-1 originales, pour lesquelles nous avons des exemples dans les données du robot, et en continuant avec divers degrés d'objets, d'arrière-plans et d'environnements auparavant invisibles par le robot qui nécessitaient que le robot apprendre la généralisation grâce à la pré-formation VLM.
RT-2 a conservé les performances sur les tâches originales vues dans les données du robot et a amélioré les performances sur des scénarios inédits par le robot, de 32 % à 62 % pour RT-1, démontrant l'avantage considérable de la pré-formation à grande échelle.
De plus, nous avons observé des améliorations significatives par rapport aux bases de référence pré-entraînées sur des tâches uniquement visuelles, telles que VC-1 et les représentations réutilisables pour la manipulation robotique (R3M) et des algorithmes qui utilisent des VLM pour l'identification d'objets, tels que la manipulation d'objets du monde ouvert (MEUGLEMENT).
Évaluer notre modèle sur l'open source Tableau des langues suite de tâches robotiques, nous avons atteint un taux de réussite de 90 % en simulation, une amélioration substantielle par rapport aux références précédentes, notamment BC-Z (72%), RT-1 (74 %), et LAVE (77%).
Ensuite, nous avons évalué le même modèle dans le monde réel (puisqu'il a été formé sur des simulations et des données réelles) et avons démontré sa capacité à se généraliser à de nouveaux objets, comme indiqué ci-dessous, où aucun des objets à l'exception du cube bleu n'était présent dans la formation. base de données.
Inspiré par méthodes d'incitation à la chaîne de pensée utilisées dans les LLMnous avons testé nos modèles pour combiner le contrôle robotique avec un raisonnement en chaîne de pensée afin de permettre l'apprentissage d'une planification à long terme et de compétences de bas niveau au sein d'un seul modèle.
En particulier, nous avons affiné une variante de RT-2 sur quelques centaines de pas de gradient afin d'augmenter sa capacité à utiliser conjointement le langage et les actions. Ensuite, nous avons augmenté les données pour inclure une étape supplémentaire « Plan », décrivant d'abord le but de l'action que le robot est sur le point d'entreprendre en langage naturel, suivi de « Action » et des jetons d'action. Nous montrons ici un exemple d'un tel raisonnement et du comportement du robot qui en résulte :
Grâce à ce processus, RT-2 peut exécuter des commandes plus complexes qui nécessitent un raisonnement sur les étapes intermédiaires nécessaires pour accomplir une instruction utilisateur. Grâce à son squelette VLM, RT-2 peut également planifier à partir de commandes d'image et de texte, permettant une planification visuellement fondée, alors que les approches actuelles de planification et d'action comme DirePeut ne peut pas voir le monde réel et s’appuyer entièrement sur le langage.
Faire progresser le contrôle robotique
RT-2 montre que les modèles vision-langage (VLM) peuvent être transformés en de puissants modèles vision-langage-action (VLA), capables de contrôler directement un robot en combinant la pré-formation VLM avec des données robotiques.
Avec deux instanciations de VLA basées sur PaLM-E et PaLI-X, RT-2 aboutit à des politiques robotiques hautement améliorées et, plus important encore, conduit à des performances de généralisation et à des capacités émergentes nettement meilleures, héritées du pré-langage de vision à l'échelle du Web. -entraînement.
RT-2 n'est pas seulement une modification simple et efficace par rapport aux modèles VLM existants, mais montre également la promesse de construire un robot physique à usage général capable de raisonner, de résoudre des problèmes et d'interpréter des informations pour effectuer un large éventail de tâches dans la réalité. monde.