Recherche
Le nouvel agent de la fondation apprend à utiliser différents bras robotiques, résout des tâches à partir de seulement 100 démonstrations et s'améliore à partir de données auto-générées.
Les robots font rapidement partie de notre vie quotidienne, mais ils sont souvent programmés uniquement pour effectuer correctement des tâches spécifiques. Même si l’exploitation des progrès récents en matière d’IA pourrait conduire à des robots qui pourraient aider de bien d’autres manières, les progrès dans la construction de robots à usage général sont plus lents, en partie à cause du temps nécessaire pour collecter des données d’entraînement réelles.
Notre dernier article présente un agent d'IA auto-amélioré pour la robotique, RoboCat, qui apprend à effectuer diverses tâches dans différents bras, puis génère automatiquement de nouvelles données d'entraînement pour améliorer sa technique.
Des recherches antérieures ont exploré comment développer des robots capables d'apprendre à effectuer plusieurs tâches à grande échelle et combiner la compréhension des modèles de langage avec les capacités du monde réel d'un robot assistant. RoboCat est le premier agent à résoudre et à s'adapter à plusieurs tâches et ce, à travers différents robots réels.
RoboCat apprend beaucoup plus rapidement que les autres modèles de pointe. Il peut entreprendre une nouvelle tâche avec seulement 100 démonstrations, car il s'appuie sur un ensemble de données vaste et diversifié. Cette capacité contribuera à accélérer la recherche en robotique, car elle réduit le besoin de formation supervisée par des humains et constitue une étape importante vers la création d’un robot à usage général.
Comment RoboCat s'améliore
RoboCat est basé sur notre modèle multimodal Chat (Espagnol pour « chat »), qui peut traiter le langage, les images et les actions dans des environnements simulés et physiques. Nous avons combiné l'architecture de Gato avec un vaste ensemble de données de formation composé de séquences d'images et d'actions de divers bras de robot résolvant des centaines de tâches différentes.
Après ce premier cycle de formation, nous avons lancé RoboCat dans un cycle de formation de « développement personnel » avec un ensemble de tâches inédites. L’apprentissage de chaque nouvelle tâche a suivi cinq étapes :
- Collectez 100 à 1 000 démonstrations d'une nouvelle tâche ou d'un nouveau robot, à l'aide d'un bras robotique contrôlé par un humain.
- Affinez RoboCat sur cette nouvelle tâche/bras, en créant un agent dérivé spécialisé.
- L'agent dérivé s'entraîne sur cette nouvelle tâche/bras en moyenne 10 000 fois, générant davantage de données de formation.
- Incorporez les données de démonstration et les données auto-générées dans l'ensemble de données de formation existant de RoboCat.
- Entraînez une nouvelle version de RoboCat sur le nouvel ensemble de données de formation.
La combinaison de toute cette formation signifie que le dernier RoboCat est basé sur un ensemble de données de millions de trajectoires, provenant de bras robotiques réels et simulés, y compris des données auto-générées. Nous avons utilisé quatre types différents de robots et de nombreux bras robotiques pour collecter des données basées sur la vision représentant les tâches pour lesquelles RoboCat serait formé.
Apprendre à utiliser de nouveaux bras robotiques et à résoudre des tâches plus complexes
Grâce à la formation diversifiée de RoboCat, il a appris à utiliser différents bras robotiques en quelques heures. Alors qu'il avait été formé sur des bras dotés de pinces à deux doigts, il était capable de s'adapter à un bras plus complexe doté d'une pince à trois doigts et de deux fois plus d'entrées contrôlables.
Après avoir observé 1 000 démonstrations contrôlées par l'homme, collectées en quelques heures seulement, RoboCat a pu diriger ce nouveau bras avec suffisamment de dextérité pour passer les vitesses avec succès dans 86 % du temps. Avec le même niveau de démonstration, il pourrait s'adapter pour résoudre des tâches alliant précision et compréhension, comme retirer le bon fruit d'un bol et résoudre un puzzle de correspondance de forme, nécessaires à un contrôle plus complexe.
Le généraliste qui s’améliore
RoboCat a un cycle vertueux de formation : plus il apprend de nouvelles tâches, plus il parvient à apprendre de nouvelles tâches supplémentaires. La version initiale de RoboCat n'a réussi que 36 % du temps sur des tâches inédites, après avoir appris de 500 démonstrations par tâche. Mais le dernier RoboCat, qui s'était entraîné sur une plus grande diversité de tâches, a plus que doublé ce taux de réussite sur les mêmes tâches.
Ces améliorations sont dues à l'étendue croissante de l'expérience de RoboCat, semblable à la façon dont les gens développent un éventail plus diversifié de compétences à mesure qu'ils approfondissent leur apprentissage dans un domaine donné. La capacité de RoboCat à acquérir des compétences de manière indépendante et à s'améliorer rapidement, en particulier lorsqu'elle est appliquée à différents appareils robotiques, contribuera à ouvrir la voie à une nouvelle génération d'agents robotiques à usage général plus utiles.