Peter Chen, PDG de robot La société de logiciels Covariant se trouve devant une interface de chatbot ressemblant à celle utilisée pour communiquer avec ChatGPT. « Montre-moi le fourre-tout devant toi », tape-t-il. En réponse, un flux vidéo apparaît, révélant un bras de robot au-dessus d'une poubelle contenant divers objets : une paire de chaussettes, un tube de chips et parmi eux une pomme.
Le chatbot peut discuter des éléments qu’il voit, mais aussi les manipuler. Lorsque WIRED suggère à Chen de lui demander de saisir un fruit, le bras descend, saisit doucement la pomme, puis la déplace vers un autre bac à proximité.
Ce chatbot pratique est une étape vers la dotation des robots au type de capacités générales et flexibles présentées par des programmes comme ChatGPT. Il y a de l’espoir que l’IA puisse enfin résoudre la difficulté de longue date de programmer des robots et de leur faire faire plus qu’un ensemble restreint de tâches.
« Il n'est pas du tout controversé à ce stade de dire que les modèles de base constituent l'avenir de la robotique », explique Chen, en utilisant un terme désignant les modèles d'apprentissage automatique à grande échelle et à usage général développés pour un domaine particulier. Le chatbot pratique qu'il m'a montré est alimenté par un modèle développé par Covariant appelé RFM-1, pour Robot Foundation Model. Comme ceux derrière ChatGPT, Les Gémeaux de Googleet d'autres chatbots, il a été formé avec de grandes quantités de texte, mais il a également reçu des données de contrôle vidéo et matériel et de mouvement provenant de dizaines de millions d'exemples de mouvements de robots provenant du travail dans le monde physique.
L’inclusion de ces données supplémentaires produit un modèle non seulement parlant couramment le langage mais aussi en action et capable de relier les deux. RFM-1 peut non seulement discuter et contrôler un bras robotique, mais également générer des vidéos montrant des robots effectuant différentes tâches. Lorsque vous y êtes invité, RFM-1 montrera comment un robot doit récupérer un objet dans une poubelle encombrée. « Il peut prendre en compte toutes ces différentes modalités importantes pour la robotique, et il peut également en produire n'importe laquelle », explique Chen. « C'est un peu époustouflant. »
Le modèle a également montré qu'il peut apprendre à contrôler un matériel similaire en dehors de ses données de formation. Avec une formation plus approfondie, cela pourrait même signifier que le même modèle général pourrait faire fonctionner un robot humanoïde, explique Pieter Abbeel, cofondateur et scientifique en chef de Covariant, pionnier de l'apprentissage robotique. En 2010, il a dirigé un projet visant à former un robot plier les serviettes– quoique lentement – et il a également travaillé chez OpenAI avant que l'entreprise n'arrête ses recherches sur les robots.
Covariant, fondée en 2017, vend actuellement des logiciels qui utilisent l'apprentissage automatique pour permettre aux bras robotisés de prélever des articles dans les bacs des entrepôts, mais ils sont généralement limités à la tâche pour laquelle ils ont été formés. Abeel affirme que des modèles comme RFM-1 pourraient permettre aux robots d'utiliser leurs préhenseurs avec beaucoup plus de fluidité vers de nouvelles tâches. Il compare la stratégie de Covariant à la façon dont Tesla utilise les données des voitures qu'elle a vendues pour entraîner ses algorithmes de conduite autonome. « C'est un peu la même chose ici que nous jouons », dit-il.
Abeel et ses collègues de Covariant sont loin d'être les seuls roboticiens à espérer que les capacités des grands modèles de langage derrière ChatGPT et des programmes similaires pourraient provoquer une révolution dans la robotique. Des projets comme RFM-1 ont montré des premiers résultats prometteurs. Mais quelle quantité de données peut être nécessaire pour former des modèles qui fabriquent des robots dotés de capacités beaucoup plus générales – et comment les collecter – reste une question ouverte.