Les deepfakes audio ont récemment eu mauvaise presse après qu'un appel automatisé généré par l'intelligence artificielle prétendant être la voix de Joe Biden ait frappé les résidents du New Hampshire, les exhortant à ne pas voter. Pendant ce temps, les spear-phishers (campagnes de phishing qui ciblent une personne ou un groupe spécifique, en utilisant notamment des informations connues pour intéresser la cible) partent à la pêche aux argentet les acteurs visent à préserver leur ressemblance audio.
Ce qui reçoit moins de presse, cependant, ce sont certaines des utilisations de deepfakes audio qui pourraient réellement profiter à la société. Dans cette séance de questions-réponses préparée pour MIT News, le postdoctorant Nauman Dawalatabad aborde les préoccupations ainsi que les avantages potentiels de la technologie émergente. Une version plus complète de cette interview peut être vue dans la vidéo ci-dessous.
Question : Quelles considérations éthiques justifient la dissimulation de l’identité du locuteur source dans les deepfakes audio, notamment lorsque cette technologie est utilisée pour créer des contenus innovants ?
UN: La question de savoir pourquoi la recherche est importante pour obscurcir l’identité du locuteur source, malgré une large utilisation primaire de modèles génératifs pour la création audio dans le divertissement, par exemple, soulève des considérations éthiques. Le discours ne contient pas uniquement des informations sur « qui êtes-vous ? » (identité) ou « de quoi parlez-vous ? (contenu); il encapsule une myriade d'informations sensibles, notamment l'âge, le sexe, l'accent, l'état de santé actuel et même des indices sur les problèmes de santé futurs à venir. Par exemple, notre récent document de recherche sur «Détecter la démence à partir de longs entretiens neuropsychologiques» démontre la faisabilité de détecter la démence à partir de la parole avec une précision considérablement élevée. De plus, il existe plusieurs modèles capables de détecter le sexe, l’accent, l’âge et d’autres informations vocales avec une très grande précision. Des progrès technologiques sont nécessaires pour protéger contre la divulgation par inadvertance de ces données privées. L'effort visant à anonymiser l'identité du locuteur source n'est pas simplement un défi technique mais une obligation morale de préserver la vie privée des individus à l'ère numérique.
Question : Comment pouvons-nous surmonter efficacement les défis posés par les deepfakes audio dans les attaques de spear phishing, en tenant compte des risques associés, du développement de contre-mesures et des progrès des techniques de détection ?
UN: Le déploiement de deepfakes audio dans les attaques de spear phishing introduit de multiples risques, notamment la propagation de désinformations et de fausses nouvelles, l'usurpation d'identité, les atteintes à la vie privée et la modification malveillante du contenu. La récente circulation d’appels automatisés trompeurs dans le Massachusetts illustre l’impact néfaste d’une telle technologie. Nous avons également récemment discuté avec le parlé avec Le Boston Globe à propos de cette technologie et à quel point il est facile et peu coûteux de générer de tels audios deepfakes.
Toute personne sans formation technique significative peut facilement générer un tel audio, avec plusieurs outils disponibles en ligne. De telles fausses nouvelles provenant des générateurs de deepfakes peuvent perturber les marchés financiers et même les résultats électoraux. Le vol de sa voix pour accéder à des comptes bancaires à commande vocale et l'utilisation non autorisée de son identité vocale à des fins financières rappellent le besoin urgent de contre-mesures robustes. D'autres risques peuvent inclure la violation de la vie privée, lorsqu'un attaquant peut utiliser l'audio de la victime sans sa permission ou son consentement. De plus, les attaquants peuvent également modifier le contenu de l’audio original, ce qui peut avoir de graves conséquences.
Deux orientations principales et importantes ont émergé dans la conception de systèmes permettant de détecter les faux sons : la détection d'artefacts et la détection d'activité. Lorsque l'audio est généré par un modèle génératif, le modèle introduit un artefact dans le signal généré. Les chercheurs conçoivent des algorithmes/modèles pour détecter ces artefacts. Cependant, cette approche présente certains défis en raison de la sophistication croissante des générateurs de deepfake audio. À l’avenir, nous pourrions également voir des modèles comportant de très petits artefacts, voire presque aucun. La détection de la vivacité, quant à elle, exploite les qualités inhérentes à la parole naturelle, telles que les schémas respiratoires, les intonations ou les rythmes, qui sont difficiles à reproduire avec précision pour les modèles d'IA. Certaines sociétés comme Pindrop développent de telles solutions pour détecter les contrefaçons audio.
De plus, des stratégies telles que le filigrane audio servent de défense proactive, intégrant des identifiants cryptés dans l'audio d'origine pour retracer son origine et dissuader toute falsification. Malgré d’autres vulnérabilités potentielles, telles que le risque d’attaques par relecture, les recherches et développements en cours dans ce domaine offrent des solutions prometteuses pour atténuer les menaces posées par les deepfakes audio.
Question : Malgré leur potentiel d’utilisation abusive, quels sont les aspects positifs et les avantages de la technologie audio deepfake ? Comment imaginez-vous que la future relation entre l’IA et nos expériences de perception audio évoluera ?
UN: Contrairement à l’accent prédominant mis sur les applications néfastes des deepfakes audio, la technologie recèle un immense potentiel d’impact positif dans divers secteurs. Au-delà du domaine de la créativité, où les technologies de conversion vocale permettent une flexibilité sans précédent dans le domaine du divertissement et des médias, les deepfakes audio sont porteurs d’une promesse de transformation dans les secteurs de la santé et de l’éducation. Mon travail actuel en cours sur l'anonymisation des voix des patients et des médecins lors des entretiens en matière de soins de santé cognitive, par exemple, facilite le partage de données médicales cruciales pour la recherche à l'échelle mondiale tout en garantissant la confidentialité. Le partage de ces données entre chercheurs favorise le développement dans les domaines des soins de santé cognitive. L'application de cette technologie à la restauration de la voix représente un espoir pour les personnes souffrant de troubles de la parole, par exemple en cas de SLA ou de dysarthrie, en améliorant les capacités de communication et la qualité de vie.
Je suis très positif quant à l’impact futur des modèles d’IA génératifs audio. L’interaction future entre l’IA et la perception audio est sur le point de connaître des progrès révolutionnaires, notamment à travers le prisme de la psychoacoustique – l’étude de la façon dont les humains perçoivent les sons. Les innovations en matière de réalité augmentée et virtuelle, illustrées par des appareils comme l'Apple Vision Pro et d'autres, repoussent les limites des expériences audio vers un réalisme sans précédent. Récemment, nous avons assisté à une augmentation exponentielle du nombre de modèles sophistiqués qui sortent presque chaque mois. Ce rythme rapide de recherche et de développement dans ce domaine promet non seulement d’affiner ces technologies, mais également d’étendre leurs applications de manière à bénéficier profondément à la société. Malgré les risques inhérents, le potentiel des modèles d’IA générative audio à révolutionner les soins de santé, le divertissement, l’éducation et au-delà témoigne de la trajectoire positive de ce domaine de recherche.