Cet article a été accepté lors de l'atelier NeurIPS 2023 sur les modèles de diffusion.
Nous démontrons comment la génération conditionnelle à partir de modèles de diffusion peut être utilisée pour aborder diverses tâches réalistes dans la production de musique en audio stéréo 44,1 kHz avec guidage du temps d'échantillonnage. Les scénarios que nous envisageons incluent la continuation, l'inpainting et la régénération de l'audio musical, la création de transitions douces entre deux pistes musicales différentes et le transfert des caractéristiques stylistiques souhaitées vers des clips audio existants. Nous y parvenons en appliquant des conseils au moment de l'échantillonnage dans un cadre simple qui prend en charge à la fois les pertes de reconstruction et de classification, ou toute combinaison des deux. Cette approche garantit que l'audio généré peut correspondre à son contexte environnant, ou se conformer à une distribution de classe ou à une représentation latente spécifiée par rapport à tout classificateur pré-entraîné ou modèle d'intégration approprié.
Nous montrons des échantillons choisis au hasard pour un certain nombre d'applications créatives dans le tableau 1, chacune conditionnée à une invite audio donnée. Pour chaque tâche et invite, nous montrons des échantillons des différents modèles décrits dans l'article.
Types de tâches :
- remplissage : remplacez les deux secondes du milieu de l'invite
- régénération : régénérer les deux secondes du milieu de l'invite
- continuation : génère une nouvelle continuation à partir des 2,4 premières secondes de l'invite
- transitions : régénérer une section de fondu enchaîné entre deux pistes
- guidance : générer un nouveau clip conditionné sur le PasseSST classificateur intégration de l'invite
rapide | tâche | CQTDiff (référence) | latent | forme d'onde |
---|---|---|---|---|
remplissage | ||||
remplissage | ||||
remplissage | ||||
régénérer | ||||
régénérer | ||||
régénérer | ||||
continuation | ||||
continuation | ||||
continuation | ||||
transitions | ||||
transitions | ||||
transitions | ||||
conseils | ||||
conseils | ||||
conseils |
Les invites sont tirées d'une division de test du Ensemble de données d'archives musicales gratuites, publié par Michaël Defferrard et al. sous un Licence internationale Creative Commons Attribution 4.0 (CC BY 4.0).