Behrooz Tahmasebi — doctorant au MIT au Département de génie électrique et d'informatique (EECS) et affilié au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) — suivait un cours de mathématiques sur les équations différentielles fin 2021 lorsqu'une lueur d'inspiration frappé. C'est dans ce cours qu'il découvre pour la première fois la loi de Weyl, formulée 110 ans plus tôt par le mathématicien allemand Hermann Weyl. Tahmasebi s'est rendu compte que cela pourrait avoir un certain rapport avec le problème informatique avec lequel il était alors aux prises, même si le lien semblait – en surface – pour être mince, au mieux. La loi de Weyl, dit-il, fournit une formule qui mesure la complexité des informations spectrales, ou données, contenues dans les fréquences fondamentales d'une peau de batterie ou d'une corde de guitare.
Tahmasebi réfléchissait en même temps à mesurer la complexité des données d’entrée d’un réseau neuronal, se demandant si cette complexité pouvait être réduite en prenant en compte certaines des symétries inhérentes à l’ensemble de données. Une telle réduction, à son tour, pourrait faciliter – et accélérer – les processus d’apprentissage automatique.
La loi de Weyl, conçue environ un siècle avant l'essor de l'apprentissage automatique, était traditionnellement appliquée à des situations physiques très différentes, comme celles concernant les vibrations d'une corde ou le spectre de rayonnement électromagnétique (corps noir) émis par un objet chauffé. . Néanmoins, Tahmasebi pensait qu’une version personnalisée de cette loi pourrait aider à résoudre le problème d’apprentissage automatique qu’il poursuivait. Et si cette approche aboutissait, les bénéfices pourraient être considérables.
Il s'est entretenu avec sa conseillère, Stefanie Jegelka – professeure agrégée à l'EECS et affiliée au CSAIL et au MIT Institute for Data, Systems, and Society – qui pensait que l'idée valait vraiment la peine d'être étudiée. Selon Tahmasebi, la loi de Weyl concernait l'évaluation de la complexité des données, tout comme ce projet. Mais la loi de Weyl, dans sa forme originale, ne disait rien sur la symétrie.
Lui et Jegelka ont réussi à modifier la loi de Weyl afin que la symétrie puisse être prise en compte dans l'évaluation de la complexité d'un ensemble de données. « À ma connaissance », déclare Tahmasebi, « c'est la première fois que la loi de Weyl est utilisée pour déterminer comment l'apprentissage automatique peut être amélioré par la symétrie. »
Le papier lui et Jegelka ont obtenu la désignation « Spotlight » lors de sa présentation lors de la conférence de décembre 2023 sur les systèmes de traitement de l'information neuronale – largement considérée comme la plus grande conférence au monde sur l'apprentissage automatique.
Ce travail, commente Soledad Villar, mathématicienne appliquée à l'Université Johns Hopkins, « montre que les modèles qui satisfont aux symétries du problème sont non seulement corrects mais peuvent également produire des prédictions avec des erreurs plus faibles, en utilisant un petit nombre de points d'entraînement. (Cela) est particulièrement important dans les domaines scientifiques, comme la chimie computationnelle, où les données de formation peuvent être rares.
Dans leur article, Tahmasebi et Jegelka ont exploré la manière dont les symétries, ou ce qu'on appelle les « invariances », pourraient bénéficier à l'apprentissage automatique. Supposons, par exemple, que l'objectif d'une exécution informatique particulière soit de sélectionner chaque image contenant le chiffre 3. Cette tâche peut être beaucoup plus facile et aller beaucoup plus rapide si l'algorithme peut identifier le 3, quel que soit l'endroit où il se trouve. placé dans la boîte – qu'il soit exactement au centre ou sur le côté – et qu'il soit orienté à l'endroit vers le haut, à l'envers ou orienté selon un angle aléatoire. Un algorithme doté de cette dernière capacité peut tirer parti des symétries de translation et de rotation, ce qui signifie qu'un 3, ou tout autre objet, n'est pas modifié en lui-même en modifiant sa position ou en le faisant tourner autour d'un axe arbitraire. On dit qu'il est invariant à ces changements. La même logique peut être appliquée aux algorithmes chargés d’identifier les chiens ou les chats. Un chien est un chien, pourrait-on dire, quelle que soit la manière dont il est intégré dans une image.
Le but de tout l'exercice, expliquent les auteurs, est d'exploiter les symétries intrinsèques d'un ensemble de données afin de réduire la complexité des tâches d'apprentissage automatique. Cela peut à son tour conduire à une réduction de la quantité de données nécessaires à l’apprentissage. Concrètement, les nouveaux travaux répondent à la question : combien de données en moins sont nécessaires pour entraîner un modèle d'apprentissage automatique si les données contiennent des symétries ?
Il existe deux manières de réaliser un gain, ou un avantage, en capitalisant sur les symétries présentes. Le premier concerne la taille de l’échantillon à examiner. Imaginons que vous soyez chargé, par exemple, d'analyser une image présentant une symétrie miroir – le côté droit étant une réplique exacte, ou une image miroir, du côté gauche. Dans ce cas, vous n’êtes pas obligé d’examiner chaque pixel ; vous pouvez obtenir toutes les informations dont vous avez besoin à partir de la moitié de l’image – une amélioration d’un facteur deux. Si en revanche l’image peut être divisée en 10 parties identiques, vous pouvez obtenir un facteur d’amélioration de 10. Ce type d’effet boostant est linéaire.
Pour prendre un autre exemple, imaginez que vous parcourez un ensemble de données et essayez de trouver des séquences de blocs comportant sept couleurs différentes : noir, bleu, vert, violet, rouge, blanc et jaune. Votre travail devient beaucoup plus facile si vous ne vous souciez pas de l'ordre dans lequel les blocs sont disposés. Si l’ordre comptait, il y aurait 5 040 combinaisons différentes à rechercher. Mais si tout ce qui vous intéresse, ce sont des séquences de blocs dans lesquelles les sept couleurs apparaissent, alors vous avez réduit le nombre d’éléments – ou de séquences – que vous recherchez de 5 040 à un seul.
Tahmasebi et Jegelka ont découvert qu’il est possible d’obtenir un autre type de gain – exponentiel – qui peut être récolté pour des symétries opérant sur de nombreuses dimensions. Cet avantage est lié à l’idée selon laquelle la complexité d’une tâche d’apprentissage croît de façon exponentielle avec la dimensionnalité de l’espace de données. Utiliser une symétrie multidimensionnelle peut donc générer un rendement disproportionné. « Il s'agit d'une nouvelle contribution qui nous dit essentiellement que les symétries de dimension supérieure sont plus importantes car elles peuvent nous donner un gain exponentiel », explique Tahmasebi.
L'article NeurIPS 2023 qu'il a rédigé avec Jegelka contient deux théorèmes prouvés mathématiquement. « Le premier théorème montre qu'une amélioration de la complexité des échantillons est réalisable avec l'algorithme général que nous proposons », explique Tahmasebi. Le deuxième théorème complète le premier, a-t-il ajouté, « montrant qu’il s’agit du meilleur gain possible que vous puissiez obtenir ; rien d’autre n’est réalisable.
Lui et Jegelka ont fourni une formule qui prédit le gain que l'on peut obtenir d'une symétrie particulière dans une application donnée. L’un des avantages de cette formule est sa généralité, note Tahmasebi. « Cela fonctionne pour n'importe quelle symétrie et n'importe quel espace d'entrée. » Cela fonctionne non seulement pour les symétries connues aujourd’hui, mais pourrait également être appliqué à l’avenir à des symétries qui restent à découvrir. Cette dernière perspective n’est pas trop farfelue, étant donné que la recherche de nouvelles symétries constitue depuis longtemps un axe majeur de la physique. Cela suggère qu’à mesure que davantage de symétries sont trouvées, la méthodologie introduite par Tahmasebi et Jegelka ne devrait que s’améliorer avec le temps.
Selon Haggai Maron, informaticien au Technion (l'Institut israélien de technologie) et chez NVIDIA qui n'a pas participé aux travaux, l'approche présentée dans l'article « diverge considérablement des travaux antérieurs similaires, en adoptant une perspective géométrique et en employant des outils de type différentiel ». géométrie. Cette contribution théorique apporte un soutien mathématique au sous-domaine émergent du « Deep Learning géométrique », qui a des applications dans l'apprentissage des graphes, les données 3D, etc. Le document aide à établir une base théorique pour guider les développements ultérieurs dans ce domaine de recherche en expansion rapide.