Les IA génératrices d'images permettent de créer des œuvres d'art numériques. Elles sont formées à partir de vastes ensembles de données comprenant des images et des textes. Ces outils ont récemment été sous le feu des projecteurs pour des raisons des plus alarmantes. Des chercheurs de l'université de Standfort ont entrepris une analyse approfondie des banques de données qui les nourrissent. Et ils ont identifié un nombre significatif d'images pédopornographiques au sein de celles-ci.
Plus de 1000 de fichiers pédopornographiques détectés
Les générateurs d'images propulsés par l'intelligence artificielle tirent leur puissance d'une base de données massive qui façonne leur apprentissage. Une enquête récente réalisé par le Standfort Internet Observatory révèle une réalité troublante. Les chercheurs ont découvert que dans cette base de données se trouvent des fichiers choquants, des images mettant en avant des actes d'abus sexuel sur des enfants. Ils ont recensé pas moins de 1000 d'illustrations pédopornographiques.
Ils ont également identifié la source de ces contenus. Ceux-ci proviennent de la base de données allemande LAION-5B, qui constitue le plus grand ensemble de données d'images IA existant. Pourtant, des entreprises telles que Google et IA stable utiliser les données de cette banque d'images pour le développement de leurs modèles d'apprentissage automatiquerespectivement Imagen et Stable Diffusion.
Pour valider cette découverte, les chercheurs ont eu recours à l'outil PhotoADN de Microsoften respectant les directives du Centre international pour enfants disparus et sexuellement exploités.
Images de maltraitance d'enfants trouvées dans les données de formation de l'IA https://t.co/3H0lZ8vju2
– Ryan Heath (@ryanaxios) 20 décembre 2023
LAION réagit rapidement par mesure de prudence
Suite à cette découverte préoccupante, LAION à pris des mesures immédiates. Il suspendre temporairement l'accès à sa base de données pour mener des vérifications. L'organisme a réaffirmé sa politique de tolérance zéro vis-à-vis des contenus illégaux.
Les résultats de cette enquête mettent en lumière l'absence de transparence des développeurs d'intelligence artificielle quant aux données utilisées pour entraîner leurs modèles. Pourtant, la présence d'un nombre même restreint d'images à caractère pédopornographique peuvent suffire à ces IA pour générer un grand nombre de nouvelles images réalistes illustrant des abus sexuels envers les mineurs.
Cette situation est particulièrement inquiétante, d'autant plus que les chercheurs de Stanford n'ont analysé qu'une fraction minime des données présentes dans les banques de données d'entraînement des grands modèles d'IA.
La nécessité d'une suite des IA
Les IA génératrices d'images ne sont pas impliquées malveillantes. Cependant, cette situation révèle l'impératif pour les développeurs d'intelligence artificielle de vérifier scrupuleusement l'intégralité des données utilisées pour la formation de leur IA. C'est crucial pour exclure tout risque de présence de contenus illégaux dans leurs modèles avant leur diffusion.
Les entreprises qui développent ces outils doivent également être transparentes quant à l'origine de leurs données. Ceci garantit que l'utilisation de ces données est à la fois éthique et légale.
Stable AI, qui a financé le générateur d'images Stable Diffusion, s'est défendue en soulignant que la version incriminée, la 1.5 a été développée par une entité tierce, Runway. La start-up britannique affirme avoir depuis entraîné une nouvelle versionla 2.0, sur une base de données soigneusement filtrées. Elle rassure également sur son engagement à éviter tout détournement malveillant et criminel de ses technologies.