Champs de diffusion multiples – Apple Machine Learning Research

Dernière mise à jour: 2023/12/10 at 12:18 PM

lecture minimale

Cet article a été accepté lors de l’atelier Diffusion Models à NeurIPS 2023.

Les modèles basés sur les scores sont rapidement devenus le choix de facto pour la modélisation générative d'images, de textes et plus récemment de molécules. Cependant, pour adapter une modélisation générative basée sur les scores à ces domaines, le réseau de scores doit être soigneusement conçu, ce qui entrave son applicabilité à des domaines de données arbitraires. Dans cet article, nous abordons ce problème en adoptant une vue \textit{fonctionnelle} des données. Cette vue fonctionnelle permet de convertir des domaines apparemment différents en une représentation commune partagée. Nous reformulons ensuite la fonction de score pour traiter les données fonctionnelles et montrons : i) cette architecture unifiée peut être appliquée efficacement à différentes modalités : images, géométrie, vidéo, et ii) nous pouvons apprendre des modèles génératifs de signaux définis sur des modèles non euclidiens. géométrie.