Présentation d'un cadre contextuel pour évaluer de manière globale les risques sociaux et éthiques des systèmes d'IA
Les systèmes d'IA générative sont déjà utilisés pour écrire des livres, créer des conceptions graphiques, aider les médecins, et sont de plus en plus capables. Veiller à ce que ces systèmes soient développés et déployés de manière responsable nécessite d’évaluer soigneusement les risques éthiques et sociaux potentiels qu’ils peuvent poser.
Dans notre nouveau papier, nous proposons un cadre à trois niveaux pour évaluer les risques sociaux et éthiques des systèmes d'IA. Ce cadre comprend des évaluations de la capacité du système d’IA, de l’interaction humaine et des impacts systémiques.
Nous cartographions également l'état actuel des évaluations de sécurité et trouvons trois lacunes principales : le contexte, les risques spécifiques et la multimodalité. Pour contribuer à combler ces lacunes, nous appelons à réorienter les méthodes d’évaluation existantes vers l’IA générative et à mettre en œuvre une approche globale de l’évaluation, comme dans notre étude de cas sur la désinformation. Cette approche intègre des résultats tels que la probabilité que le système d’IA fournisse des informations factuellement incorrectes ainsi que des informations sur la manière dont les gens utilisent ce système et dans quel contexte. Les évaluations à plusieurs niveaux peuvent tirer des conclusions au-delà des capacités du modèle et indiquer si un préjudice – dans ce cas, une désinformation – se produit réellement et se propage.
Pour que toute technologie fonctionne comme prévu, des défis à la fois sociaux et techniques doivent être résolus. Ainsi, pour mieux évaluer la sécurité des systèmes d’IA, ces différentes couches de contexte doivent être prises en compte. Ici, nous nous appuyons sur des recherches antérieures identifiant les risques potentiels des modèles de langage à grande échelletelles que les fuites de confidentialité, l’automatisation des tâches, la désinformation, etc. – et introduisons un moyen d’évaluer de manière globale ces risques à l’avenir.
Le contexte est essentiel pour évaluer les risques liés à l’IA
Les capacités des systèmes d’IA sont un indicateur important des types de risques plus larges qui peuvent survenir. Par exemple, les systèmes d’IA qui sont plus susceptibles de produire des résultats factuellement inexacts ou trompeurs peuvent être plus enclins à créer des risques de désinformation, entraînant des problèmes tels que le manque de confiance du public.
La mesure de ces capacités est au cœur des évaluations de la sécurité de l’IA, mais ces évaluations ne peuvent à elles seules garantir la sécurité des systèmes d’IA. La question de savoir si un préjudice en aval se manifeste – par exemple, si les gens en viennent à avoir de fausses croyances basées sur des résultats de modèles inexacts – dépend de contexte. Plus précisément, qui utilise le système d’IA et dans quel but ? Le système d’IA fonctionne-t-il comme prévu ? Cela crée-t-il des externalités inattendues ? Toutes ces questions éclairent une évaluation globale de la sécurité d’un système d’IA.
S'étendre au-delà aptitude évaluation, nous proposons une évaluation qui peut évaluer deux points supplémentaires où les risques en aval se manifestent : l'interaction humaine au point d'utilisation et l'impact systémique lorsqu'un système d'IA est intégré dans des systèmes plus larges et largement déployé. L'intégration des évaluations d'un risque de préjudice donné à travers ces couches fournit une évaluation complète de la sécurité d'un système d'IA.
Interaction humaine l’évaluation centre l’expérience des personnes utilisant un système d’IA. Comment les gens utilisent-ils le système d’IA ? Le système fonctionne-t-il comme prévu au point d’utilisation, et en quoi les expériences diffèrent-elles selon les données démographiques et les groupes d’utilisateurs ? Pouvons-nous observer des effets secondaires inattendus liés à l’utilisation de cette technologie ou à l’exposition à ses résultats ?
Impact systémique L’évaluation se concentre sur les structures plus larges dans lesquelles un système d’IA est intégré, telles que les institutions sociales, les marchés du travail et l’environnement naturel. L’évaluation à ce niveau peut mettre en lumière les risques de préjudice qui ne deviennent visibles qu’une fois qu’un système d’IA est adopté à grande échelle.
Les évaluations de sécurité sont une responsabilité partagée
Les développeurs d’IA doivent s’assurer que leurs technologies sont développées et publiées de manière responsable. Les acteurs publics, tels que les gouvernements, sont chargés de garantir la sécurité publique. Alors que les systèmes d’IA générative sont de plus en plus largement utilisés et déployés, garantir leur sécurité est une responsabilité partagée entre plusieurs acteurs :
- Développeurs d'IA sont bien placés pour interroger les capacités des systèmes qu’ils produisent.
- Développeurs d'applications et les autorités publiques désignées sont en mesure d'évaluer la fonctionnalité des différentes fonctionnalités et applications, ainsi que les externalités possibles pour différents groupes d'utilisateurs.
- Acteurs du grand public sont particulièrement bien placés pour prévoir et évaluer les implications sociétales, économiques et environnementales des nouvelles technologies, telles que l’IA générative.
Les trois niveaux d’évaluation dans le cadre proposé sont une question de degré plutôt que d’être clairement divisés. Bien qu'aucun d'entre eux ne relève entièrement de la responsabilité d'un seul acteur, la responsabilité principale dépend de celui qui est le mieux placé pour effectuer les évaluations à chaque niveau.
Lacunes dans les évaluations actuelles de sécurité de l’IA multimodale générative
Compte tenu de l’importance de ce contexte supplémentaire pour évaluer la sécurité des systèmes d’IA, il est important de comprendre la disponibilité de tels tests. Pour mieux comprendre le paysage plus large, nous avons déployé de vastes efforts pour rassembler de manière aussi complète que possible les évaluations appliquées aux systèmes d’IA générative.
En cartographiant l'état actuel des évaluations de sécurité pour l'IA générative, nous avons découvert trois principales lacunes en matière d'évaluation de la sécurité :
- Contexte: La plupart des évaluations de sécurité considèrent les capacités du système d’IA générative de manière isolée. Relativement peu de travaux ont été réalisés pour évaluer les risques potentiels au niveau de l’interaction humaine ou de l’impact systémique.
- Évaluations spécifiques aux risques : Les évaluations des capacités des systèmes d’IA générative sont limitées dans les domaines de risque qu’elles couvrent. Pour de nombreux domaines à risque, il existe peu d’évaluations. Lorsqu’elles existent, les évaluations opérationnalisent souvent les préjudices de manière étroite. Par exemple, les préjudices liés à la représentation sont généralement définis comme des associations stéréotypées entre une profession et différents sexes, laissant d’autres cas de préjudice et domaines à risque non détectés.
- Multimodalité : La grande majorité des évaluations de sécurité existantes des systèmes d’IA générative se concentrent uniquement sur la sortie de texte – de grandes lacunes subsistent pour évaluer les risques de dommages dans les modalités d’image, audio ou vidéo. Cet écart ne fait que se creuser avec l’introduction de plusieurs modalités dans un modèle unique, telles que des systèmes d’IA capables de prendre des images en entrée ou de produire des sorties entremêlant audio, texte et vidéo. Même si certaines évaluations fondées sur des textes peuvent être appliquées à d’autres modalités, les nouvelles modalités introduisent de nouvelles façons dont les risques peuvent se manifester. Par exemple, la description d’un animal n’est pas nuisible, mais si la description est appliquée à l’image d’une personne, elle l’est.
Nous dressons une liste de liens vers des publications détaillant les évaluations de sécurité des systèmes d'IA générative, librement accessibles via ce référentiel. Si vous souhaitez contribuer, veuillez ajouter des évaluations en remplissant ce formulaire.
Mettre en pratique des évaluations plus complètes
Les systèmes d’IA générative alimentent une vague de nouvelles applications et d’innovations. Pour garantir que les risques potentiels liés à ces systèmes sont compris et atténués, nous avons besoin de toute urgence d’évaluations rigoureuses et complètes de la sécurité des systèmes d’IA qui prennent en compte la manière dont ces systèmes peuvent être utilisés et intégrés dans la société.
Une première étape pratique consiste à réorienter les évaluations existantes et à exploiter les grands modèles eux-mêmes pour l’évaluation – même si cela présente des limites importantes. Pour une évaluation plus complète, nous devons également développer des approches pour évaluer les systèmes d’IA au point d’interaction humaine et leurs impacts systémiques. Par exemple, même si la diffusion de fausses informations via l’IA générative est un problème récent, nous montrons qu’il existe de nombreuses méthodes existantes d’évaluation de la confiance et de la crédibilité du public qui pourraient être réutilisées.
Garantir la sécurité des systèmes d’IA générative largement utilisés est une responsabilité et une priorité partagées. Les développeurs d’IA, les acteurs publics et les autres parties doivent collaborer et construire collectivement un écosystème d’évaluation prospère et robuste pour des systèmes d’IA sûrs.