Son groupe a décidé de le découvrir. Ils ont construit la nouvelle version diversifiée d’AlphaZero, qui comprend plusieurs systèmes d’IA formés de manière indépendante et dans diverses situations. L'algorithme qui régit l'ensemble du système agit comme une sorte d'entremetteur virtuel, a déclaré Zahavy : un algorithme conçu pour identifier quel agent a les meilleures chances de réussir lorsqu'il est temps d'agir. Lui et ses collègues ont également prévu un « bonus à la diversité », une récompense pour le système chaque fois qu'il sélectionne des stratégies parmi un large éventail de choix.
Lorsque le nouveau système a été lancé pour jouer à ses propres jeux, l'équipe a observé une grande variété. Le joueur diversifié de l'IA a expérimenté de nouvelles ouvertures efficaces et des décisions nouvelles, mais judicieuses, concernant des stratégies spécifiques, telles que quand et où roquer. Dans la plupart des matchs, il a vaincu l'AlphaZero original. L'équipe a également constaté que la version diversifiée pouvait résoudre deux fois plus d'énigmes que l'original et pouvait résoudre plus de la moitié du catalogue total d'énigmes de Penrose.
« L'idée est qu'au lieu de trouver une solution, ou une politique unique, qui battrait n'importe quel acteur, ici (il utilise) l'idée de diversité créative », a déclaré Cully.
Avec un accès à des jeux plus nombreux et différents, a déclaré Zahavy, l'AlphaZero diversifié avait plus d'options pour les situations délicates lorsqu'elles se présentaient. « Si vous pouvez contrôler le type de jeux qu'il voit, vous contrôlez essentiellement la manière dont il se généralisera », a-t-il déclaré. Ces étranges récompenses intrinsèques (et leurs mouvements associés) pourraient devenir des atouts pour divers comportements. Le système pourrait alors apprendre à évaluer et valoriser les approches disparates et voir quand elles ont été les plus efficaces. « Nous avons constaté que ce groupe d'agents pouvait effectivement parvenir à un accord sur ces positions. »
Et surtout, les implications s’étendent au-delà des échecs.
Créativité réelle
Cully a déclaré qu'une approche diversifiée peut aider n'importe quel système d'IA, pas seulement ceux basés sur l'apprentissage par renforcement. Il utilise depuis longtemps la diversité pour entraîner des systèmes physiques, notamment un robot à six pattes qui a été autorisé à explorer différents types de mouvements, avant de le « blesser » intentionnellement, lui permettant de continuer à bouger en utilisant certaines des techniques qu'il avait développées auparavant. « Nous essayions simplement de trouver des solutions différentes de toutes les solutions précédentes que nous avons trouvées jusqu'à présent. » Récemment, il a également collaboré avec des chercheurs pour utiliser la diversité afin d'identifier de nouveaux médicaments candidats prometteurs et de développer des stratégies boursières efficaces.
« L'objectif est de générer une large collection de milliers de solutions différentes, chaque solution étant très différente de la suivante », a déclaré Cully. Ainsi, tout comme le joueur d’échecs diversifié a appris à le faire, pour chaque type de problème, le système global pouvait choisir la meilleure solution possible. Le système d'IA de Zahavy, a-t-il déclaré, montre clairement comment « la recherche de stratégies diverses aide à sortir des sentiers battus et à trouver des solutions ».
Zahavy soupçonne que pour que les systèmes d’IA pensent de manière créative, les chercheurs doivent simplement les amener à envisager davantage d’options. Cette hypothèse suggère un curieux lien entre les humains et les machines : peut-être que l’intelligence n’est qu’une question de puissance de calcul. Pour un système d’IA, la créativité se résume peut-être à la capacité d’envisager et de sélectionner parmi un buffet d’options suffisamment large. À mesure que le système obtient des récompenses pour la sélection d’une variété de stratégies optimales, ce type de résolution créative de problèmes se renforce et se renforce. En fin de compte, en théorie, cela pourrait imiter n’importe quel type de stratégie de résolution de problèmes reconnue comme créative chez les humains. La créativité deviendrait un problème informatique.
Liemhetcharat a noté qu’il est peu probable qu’un système d’IA diversifié résolve complètement le problème plus large de la généralisation de l’apprentissage automatique. Mais c'est un pas dans la bonne direction. «Cela atténue l'une des lacunes», a-t-elle déclaré.
Plus concrètement, les résultats de Zahavy font écho aux efforts récents qui montrent comment la coopération peut conduire à de meilleures performances parmi les humains dans des tâches difficiles. La plupart des succès figurant sur la liste Billboard 100 ont été écrits par des équipes d'auteurs-compositeurs, par exemple, et non par des individus. Et il y a encore place à l'amélioration. L’approche diversifiée est actuellement coûteuse en termes de calcul, car elle doit prendre en compte bien plus de possibilités qu’un système classique. Zahavy n’est pas non plus convaincu que même l’AlphaZero diversifié capture tout le spectre des possibilités.
« Je pense qu'il est toujours possible de trouver des solutions différentes », a-t-il déclaré. « Il n'est pas clair pour moi qu'avec toutes les données du monde, il y ait (une seule) réponse à chaque question. »
Histoire originale réimprimé avec la permission de Magazine Quanta, une publication éditorialement indépendante du Fondation Simons dont la mission est d'améliorer la compréhension publique de la science en couvrant les développements et les tendances de la recherche en mathématiques et en sciences physiques et de la vie.