Des centaines de robots vont et viennent sur le sol d'un entrepôt robotique colossal, saisissant des articles et les livrant à des travailleurs humains pour qu'ils soient emballés et expédiés. De tels entrepôts font de plus en plus partie de la chaîne d'approvisionnement dans de nombreux secteurs, du commerce électronique à la production automobile.
Cependant, amener efficacement 800 robots vers et depuis leur destination tout en les empêchant de s’écraser les uns sur les autres n’est pas une tâche facile. Il s’agit d’un problème tellement complexe que même les meilleurs algorithmes d’orientation ont du mal à suivre le rythme effréné du commerce électronique ou de la fabrication.
Dans un sens, ces robots sont comme des voitures essayant de se déplacer dans un centre-ville bondé. Ainsi, un groupe de chercheurs du MIT qui utilisent l’IA pour atténuer les embouteillages ont appliqué des idées de ce domaine pour résoudre ce problème.
Ils ont construit un modèle d'apprentissage en profondeur qui code des informations importantes sur l'entrepôt, notamment les robots, les chemins planifiés, les tâches et les obstacles, et l'utilise pour prédire les meilleures zones de l'entrepôt à décongestionner afin d'améliorer l'efficacité globale.
Leur technique divise les robots de l'entrepôt en groupes, de sorte que ces petits groupes de robots peuvent être décongestionnés plus rapidement grâce aux algorithmes traditionnels utilisés pour coordonner les robots. Au final, leur méthode décongestionne les robots près de quatre fois plus vite qu’une méthode de recherche aléatoire forte.
En plus de rationaliser les opérations des entrepôts, cette approche d’apprentissage profond pourrait être utilisée dans d’autres tâches de planification complexes, comme la conception de puces informatiques ou le routage de canalisations dans de grands bâtiments.
« Nous avons conçu une nouvelle architecture de réseau neuronal réellement adaptée aux opérations en temps réel à l’échelle et à la complexité de ces entrepôts. Il peut coder des centaines de robots en termes de trajectoires, d'origines, de destinations et de relations avec d'autres robots, et il peut le faire de manière efficace en réutilisant les calculs entre groupes de robots », explique Cathy Wu, responsable de carrière chez Gilbert W. Winslow. Professeur assistant de développement en génie civil et environnemental (CEE), et membre du Laboratoire des systèmes d'information et de décision (LIDS) et de l'Institut des données, des systèmes et de la société (IDSS).
Wu, auteur principal d'un article sur cette technique, est rejoint par l'auteur principal Zhongxia Yan, étudiant diplômé en génie électrique et en informatique. Les travaux seront présentés à la Conférence internationale sur les représentations d’apprentissage.
Tetris robotique
Vu à vol d’oiseau, le sol d’un entrepôt robotisé de commerce électronique ressemble un peu à un jeu de « Tetris » au rythme effréné.
Lorsqu'une commande client arrive, un robot se rend dans une zone de l'entrepôt, saisit l'étagère qui contient l'article demandé et le livre à un opérateur humain qui sélectionne et emballe l'article. Des centaines de robots le font simultanément, et si les trajectoires de deux robots entrent en conflit lorsqu'ils traversent l'immense entrepôt, ils risquent de s'écraser.
Les algorithmes traditionnels basés sur la recherche évitent les accidents potentiels en maintenant un robot sur sa trajectoire et en replanifiant une trajectoire pour l'autre. Mais avec autant de robots et de collisions potentielles, le problème prend rapidement une ampleur exponentielle.
« Comme l'entrepôt fonctionne en ligne, les robots sont replanifiés toutes les 100 millisecondes environ. Cela signifie que chaque seconde, un robot est replanifié 10 fois. Ces opérations doivent donc être très rapides », explique Wu.
Parce que le temps est si critique lors de la replanification, les chercheurs du MIT utilisent l'apprentissage automatique pour concentrer la replanification sur les zones de congestion les plus exploitables, là où il existe le plus grand potentiel de réduction du temps de trajet total des robots.
Wu et Yan ont construit une architecture de réseau neuronal qui prend en compte simultanément de plus petits groupes de robots. Par exemple, dans un entrepôt comptant 800 robots, le réseau peut diviser l’entrepôt en petits groupes contenant chacun 40 robots.
Ensuite, il prédit quel groupe a le plus de potentiel pour améliorer la solution globale si un solveur basé sur la recherche était utilisé pour coordonner les trajectoires des robots de ce groupe.
Dans le cadre d'un processus itératif, l'algorithme global sélectionne le groupe de robots le plus prometteur avec le réseau neuronal, décongestionne le groupe avec le solveur basé sur la recherche, puis sélectionne le groupe suivant le plus prometteur avec le réseau neuronal, et ainsi de suite.
Considérer les relations
Le réseau neuronal peut raisonner efficacement sur des groupes de robots car il capture les relations complexes qui existent entre les robots individuels. Par exemple, même si un robot peut être éloigné d’un autre au départ, leurs chemins peuvent quand même se croiser au cours de leurs déplacements.
La technique rationalise également le calcul en codant les contraintes une seule fois, plutôt que de répéter le processus pour chaque sous-problème. Par exemple, dans un entrepôt de 800 robots, décongestionner un groupe de 40 robots nécessite de retenir les 760 autres robots comme contraintes. D'autres approches nécessitent de raisonner sur les 800 robots une fois par groupe et à chaque itération.
Au lieu de cela, l’approche des chercheurs nécessite uniquement de raisonner sur les 800 robots une fois dans tous les groupes, à chaque itération.
« L’entrepôt est un vaste environnement, donc beaucoup de ces groupes de robots partageront certains aspects d’un problème plus vaste. Nous avons conçu notre architecture pour utiliser ces informations communes », ajoute-t-elle.
Ils ont testé leur technique dans plusieurs environnements simulés, dont certains ressemblant à des entrepôts, d'autres avec des obstacles aléatoires et même des environnements semblables à des labyrinthes qui imitent les intérieurs de bâtiments.
En identifiant les groupes les plus efficaces à décongestionner, leur approche basée sur l'apprentissage décongestionne l'entrepôt jusqu'à quatre fois plus rapidement que les approches fortes non basées sur l'apprentissage. Même en tenant compte de la surcharge de calcul supplémentaire liée à l’exécution du réseau neuronal, leur approche a tout de même résolu le problème 3,5 fois plus rapidement.
À l’avenir, les chercheurs souhaitent tirer de leur modèle neuronal des informations simples et basées sur des règles, car les décisions du réseau neuronal peuvent être opaques et difficiles à interpréter. Des méthodes plus simples, basées sur des règles, pourraient également être plus faciles à mettre en œuvre et à maintenir dans de véritables environnements d’entrepôt robotisé.
« Cette approche est basée sur une nouvelle architecture où les mécanismes de convolution et d’attention interagissent de manière efficace et efficiente. De manière impressionnante, cela permet de prendre en compte la composante spatio-temporelle des chemins construits sans avoir besoin d'une ingénierie de fonctionnalités spécifiques au problème. Les résultats sont remarquables : non seulement il est possible d'améliorer les méthodes de recherche de pointe dans les grands quartiers en termes de qualité de la solution et de rapidité, mais le modèle se généralise à merveille à des cas inédits », déclare Andrea Lodi, directeur d'Andrew. H. et Ann R. Tisch professeur à Cornell Tech, et qui n'a pas participé à cette recherche.
Ce travail a été soutenu par Amazon et le MIT Amazon Science Hub.