En avril 2022, lorsque Dall-E, un modèle visiolinguistique de conversion texte-image, a été lancé, il aurait attiré plus d'un millions d'utilisateurs au cours des trois premiers mois. Cela a été suivi par ChatGPT, en janvier 2023, qui a apparemment atteint 100 millions utilisateurs actifs mensuels seulement deux mois après le lancement. Ces deux événements marquent des moments marquants dans le développement de l’IA générative, qui à son tour a provoqué une explosion de contenu généré par l’IA sur le Web. La mauvaise nouvelle est qu’en 2024, cela signifie que nous assisterons également à une explosion d’informations fabriquées et absurdes, de désinformation et de désinformation, ainsi qu’à l’exacerbation des stéréotypes sociaux négatifs codés dans ces modèles d’IA.
La révolution de l’IA n’a pas été stimulée par une avancée théorique récente (en fait, la plupart des travaux fondamentaux sous-tendant les réseaux de neurones artificiels existent depuis des décennies) mais par la « disponibilité » d’ensembles de données massifs. Idéalement, un modèle d'IA capture un phénomène donné (qu'il s'agisse du langage humain, de la cognition ou du monde visuel) d'une manière qui soit aussi représentative que possible des phénomènes réels.
Par exemple, pour qu’un grand modèle de langage (LLM) génère un texte de type humain, il est important que le modèle reçoive d’énormes volumes de données qui représentent d’une manière ou d’une autre le langage, l’interaction et la communication humaines. La croyance est que plus l’ensemble de données est vaste, mieux il capture les affaires humaines, dans toute leur beauté, leur laideur et même leur cruauté. Nous sommes dans une époque marquée par l’obsession de faire évoluer les modèles, les ensembles de données et les GPU. Les LLM actuels, par exemple, sont désormais entrés dans l’ère des modèles d’apprentissage automatique comportant des milliards de paramètres, ce qui signifie qu’ils nécessitent des ensembles de données de la taille d’un milliard. Où peut-on le trouver ? Sur le Web.
Ces données provenant du Web sont censées capturer la « vérité terrain » sur la communication et l’interaction humaines, un proxy à partir duquel le langage peut être modélisé. Bien que divers chercheurs aient montré que les ensembles de données en ligne sont souvent de mauvaise qualitéavoir tendance à exacerber les stéréotypes négatifset contiennent du contenu problématique tel que insultes raciales et discours haineuxsouvent vers des groupes marginalisés, cela n'a pas empêché les grandes entreprises d'IA d'utiliser ces données dans la course à leur croissance.
Avec l’IA générative, ce problème est sur le point de s’aggraver. Plutôt que de représenter le monde social à partir de données d’entrée de manière objective, ces modèles codent et amplifient les stéréotypes sociaux. En effet, récemment travail montre que les modèles génératifs encodent et reproduire des attitudes racistes et discriminatoires envers des identités, des cultures et des langues historiquement marginalisées.
Il est difficile, voire impossible, même avec des outils de détection de pointe, de savoir avec certitude quelle quantité de données texte, image, audio et vidéo est actuellement générée et à quel rythme. Les chercheurs Hans Hanley et Zakir Durumeric de l'Université de Stanford estiment que Augmentation de 68 pour cent du nombre d’articles synthétiques publiés sur Reddit et une augmentation de 131 % des articles d’actualité sur la désinformation entre le 1er janvier 2022 et le 31 mars 2023. Boumeuxune société de génération de musique en ligne, affirme avoir généré jusqu'à présent 14,5 millions de chansons (soit 14 % de la musique enregistrée). En 2021, Nvidia prédit que d’ici 2030, il y aura plus de données synthétiques que de données réelles dans les modèles d’IA. Une chose est sûre : le Web est inondé de données générées synthétiquement.
Ce qui est inquiétant, c’est que ces grandes quantités de résultats de l’IA générative seront, à leur tour, utilisées comme matériel de formation pour les futurs modèles d’IA générative. Ainsi, en 2024, une partie très importante du matériel de formation aux modèles génératifs sera constituée de données synthétiques produites à partir de modèles génératifs. Bientôt, nous serons piégés dans une boucle récursive où nous entraînerons des modèles d’IA en utilisant uniquement des données synthétiques produites par des modèles d’IA. La plupart de ces informations seront contaminées par des stéréotypes qui continueront d’amplifier les inégalités historiques et sociétales. Malheureusement, ce seront également ces données que nous utiliserons pour former des modèles génératifs appliqués à des secteurs à forts enjeux tels que la médecine, la thérapie, l’éducation et le droit. Nous n’avons pas encore compris les conséquences désastreuses de cette situation. D’ici 2024, l’explosion de contenu de l’IA générative que nous trouvons si fascinante aujourd’hui deviendra plutôt une énorme décharge toxique qui reviendra nous mordre.