L’IA générative, qui est actuellement au sommet du discours populaire, promet un monde où le simple se transforme en complexe – où une distribution simple évolue en modèles complexes d’images, de sons ou de texte, rendant l’artificiel étonnamment réel.
Les domaines de l'imagination ne restent plus de simples abstractions, puisque des chercheurs du laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont donné vie à un modèle d'IA innovant. Leur nouvelle technologie intègre deux lois physiques apparemment sans rapport qui sous-tendent les modèles génératifs les plus performants à ce jour : la diffusion, qui illustre généralement le mouvement aléatoire d'éléments, comme la chaleur pénétrant dans une pièce ou un gaz se propageant dans l'espace, et l'écoulement de Poisson, qui s'appuie sur les principes régissant l'activité des charges électriques.
Ce mélange harmonieux a abouti à des performances supérieures dans la génération de nouvelles images, dépassant les modèles de pointe existants. Depuis sa création, le «Modèle Génératif de Flux de Poisson ++» (PFGM++) a trouvé des applications potentielles dans divers domaines, de la génération d’anticorps et de séquences d’ARN à la production audio et à la génération de graphiques.
Le modèle peut générer des modèles complexes, comme créer des images réalistes ou imiter des processus du monde réel. PFGM++ s'appuie sur PFGM, le travail de l'équipe de l'année précédente. PFGM s'inspire des moyens derrière l'équation mathématique connue sous le nom d'équation de « Poisson », puis l'applique aux données à partir desquelles le modèle tente d'apprendre. Pour ce faire, l'équipe a eu recours à une astuce astucieuse : elle a ajouté une dimension supplémentaire à « l'espace » de son modèle, un peu comme si on passait d'une esquisse 2D à un modèle 3D. Cette dimension supplémentaire donne plus de marge de manœuvre, place les données dans un contexte plus large et permet d'approcher les données dans toutes les directions lors de la génération de nouveaux échantillons.
« PFGM++ est un exemple du type de progrès en matière d'IA qui peuvent être réalisés grâce à des collaborations interdisciplinaires entre physiciens et informaticiens », déclare Jesse Thaler, physicien théoricien des particules au Centre de physique théorique du Laboratoire des sciences nucléaires du MIT et directeur de l'IA de la National Science Foundation. Institut d'intelligence artificielle et d'interactions fondamentales (NSF AI IAIFI), qui n'a pas participé aux travaux. « Ces dernières années, les modèles génératifs basés sur l’IA ont donné de nombreux résultats époustouflants, depuis des images photoréalistes jusqu’à des flux de texte clairs. Il est remarquable que certains des modèles génératifs les plus puissants reposent sur des concepts physiques éprouvés, tels que les symétries et la thermodynamique. PFGM++ reprend une idée centenaire de la physique fondamentale – selon laquelle il pourrait y avoir des dimensions supplémentaires de l’espace-temps – et la transforme en un outil puissant et robuste pour générer des ensembles de données synthétiques mais réalistes. Je suis ravi de voir la myriade de façons dont « l’intelligence physique » transforme le domaine de l’intelligence artificielle.
Le mécanisme sous-jacent du PFGM n’est pas aussi complexe qu’il y paraît. Les chercheurs ont comparé les points de données à de minuscules charges électriques placées sur un plan plat dans un monde dimensionnellement étendu. Ces charges produisent un « champ électrique », les charges cherchant à se déplacer vers le haut le long des lignes de champ dans une dimension supplémentaire et formant ainsi une distribution uniforme sur un vaste hémisphère imaginaire. Le processus de génération est comme rembobiner une bande vidéo : en commençant par un ensemble de charges uniformément réparties sur l'hémisphère et en suivant leur voyage vers le plan plat le long des lignes électriques, elles s'alignent pour correspondre à la distribution des données d'origine. Ce processus intrigant permet au modèle neuronal d’apprendre le champ électrique et de générer de nouvelles données qui reflètent l’original.
Le modèle PFGM++ étend le champ électrique dans PFGM à un cadre complexe de dimension supérieure. Lorsque vous continuez à étendre ces dimensions, quelque chose d’inattendu se produit : le modèle commence à ressembler à une autre classe importante de modèles, les modèles de diffusion. Ce travail consiste à trouver le bon équilibre. Les modèles PFGM et diffusion se situent aux extrémités opposées d’un spectre : l’un est robuste mais complexe à manipuler, l’autre plus simple mais moins robuste. Le modèle PFGM++ offre un juste équilibre entre robustesse et facilité d’utilisation. Cette innovation ouvre la voie à une génération d’images et de motifs plus efficace, marquant une avancée technologique significative. Outre les dimensions réglables, les chercheurs ont proposé une nouvelle méthode de formation qui permet un apprentissage plus efficace du champ électrique.
Pour donner vie à cette théorie, l’équipe a résolu deux équations différentielles détaillant le mouvement de ces charges dans le champ électrique. Ils ont évalué les performances à l’aide du score Frechet Inception Distance (FID), une mesure largement acceptée qui évalue la qualité des images générées par le modèle par rapport aux images réelles. PFGM++ présente en outre une résistance plus élevée aux erreurs et une robustesse vis-à-vis de la taille du pas dans les équations différentielles.
Pour l’avenir, ils visent à affiner certains aspects du modèle, en particulier de manière systématique pour identifier la valeur « idéale » de D adaptée à des données, des architectures et des tâches spécifiques en analysant le comportement des erreurs d’estimation des réseaux de neurones. Ils prévoient également d’appliquer le PFGM++ à la génération moderne de texte en image/texte en vidéo à grande échelle.
« Les modèles de diffusion sont devenus un moteur essentiel de la révolution de l’IA générative », déclare Yang Song, chercheur scientifique chez OpenAI. « PFGM++ présente une puissante généralisation des modèles de diffusion, permettant aux utilisateurs de générer des images de meilleure qualité en améliorant la robustesse de la génération d'images contre les perturbations et les erreurs d'apprentissage. De plus, PFGM++ découvre un lien surprenant entre l’électrostatique et les modèles de diffusion, fournissant ainsi de nouvelles informations théoriques sur la recherche sur les modèles de diffusion.
« Les modèles génératifs d'écoulement de Poisson ne s'appuient pas seulement sur une formulation élégante inspirée de la physique et basée sur l'électrostatique, mais ils offrent également des performances de modélisation générative de pointe dans la pratique », déclare Karsten Kreis, chercheur scientifique principal chez NVIDIA, qui n'a pas participé. dans le travail. « Ils surpassent même les modèles de diffusion populaires, qui dominent actuellement la littérature. Cela en fait un outil de modélisation générative très puissant, et j’envisage leur application dans divers domaines, allant de la création de contenu numérique à la découverte générative de médicaments. Plus généralement, je crois que l’exploration de nouveaux cadres de modélisation générative inspirés de la physique est très prometteuse pour l’avenir et que les modèles génératifs de flux de Poisson ne sont qu’un début.
Auteurs sur un papier sur ce travail figurent trois étudiants diplômés du MIT : Yilun Xu du Département de génie électrique et d'informatique (EECS) et CSAIL, Ziming Liu du Département de physique et de la NSF AI IAIFI, et Shangyuan Tong de l'EECS et du CSAIL, ainsi que Yonglong Tian, chercheur principal chez Google, PhD '23. Les professeurs du MIT, Max Tegmark et Tommi Jaakkola, ont conseillé la recherche.
L'équipe a été soutenue par la collaboration MIT-DSTA Singapour, le MIT-IBM Watson AI Lab, les subventions de la National Science Foundation, la Casey and Family Foundation, le Foundational Questions Institute, le Rothberg Family Fund for Cognitive Science et le ML for Pharmaceutical Discovery. et Consortium de synthèse. Leurs travaux ont été présentés cet été à la Conférence internationale sur l’apprentissage automatique.