« Je suis vraiment préoccupé par la facilité apparente avec laquelle nous pouvons briser de tels modèles », déclare Zico Kolterprofesseur à l'Université Carnegie Mellon dont le groupe de recherche démontré une vulnérabilité béante dans de grands modèles de langage en août.
Kolter affirme que certains modèles disposent désormais de protections capables de bloquer certaines attaques, mais il ajoute que les vulnérabilités sont inhérentes au fonctionnement de ces modèles et sont donc difficiles à défendre. « Je pense que nous devons comprendre que ce type de ruptures est inhérent à de nombreux LLM », déclare Kolter, « et nous n'avons pas de moyen clair et bien établi pour les éviter. »
Les grands modèles linguistiques sont récemment apparus comme un nouveau type de technologie puissant et transformateur. Leur potentiel a fait la une des journaux alors que les gens ordinaires ont été éblouis par les capacités de ChatGPT d'OpenAI, publié il y a juste un an.
Dans les mois qui ont suivi la sortie de ChatGPT, la découverte de nouvelles méthodes de jailbreak est devenue un passe-temps populaire pour les utilisateurs malicieux, ainsi que pour ceux qui s'intéressent à la sécurité et à la fiabilité des systèmes d'IA. Mais de nombreuses startups construisent désormais des prototypes et des produits à part entière sur la base de grandes API de modèles de langage. OpenAI a déclaré lors de sa toute première conférence de développeurs en novembre que plus de 2 millions de développeurs utilisent désormais ses API.
Ces modèles prédisent simplement le texte qui devrait suivre une entrée donnée, mais ils sont formés sur de grandes quantités de texte, provenant du Web et d'autres sources numériques, en utilisant un grand nombre de puces informatiques, sur une période de plusieurs semaines, voire plusieurs mois. Avec suffisamment de données et de formation, les modèles linguistiques font preuve de compétences de prédiction dignes d’un savant, répondant à une gamme extraordinaire d’entrées avec des informations apparemment cohérentes et pertinentes.
Les modèles présentent également des biais tirés de leurs données de formation et ont tendance à fabriquer des informations lorsque la réponse à une invite est moins simple. Sans garanties, ils peuvent donner des conseils aux gens sur la façon de faire des choses comme se procurer de la drogue ou fabriquer des bombes. Pour contrôler les modèles, les entreprises derrière eux utilisent la même méthode que celle utilisée pour rendre leurs réponses plus cohérentes et plus précises. Cela implique que des humains notent les réponses du modèle et utilisent ces commentaires pour affiner le modèle afin qu'il soit moins susceptible de se comporter mal.
Robust Intelligence a fourni à WIRED plusieurs exemples de jailbreaks qui contournent ces garanties. Tous n’ont pas travaillé sur ChatGPT, le chatbot construit sur GPT-4, mais plusieurs l’ont fait, dont un pour générer des messages de phishing et un autre pour produire des idées pour aider un acteur malveillant à rester caché sur un réseau informatique gouvernemental.
Un similaire méthode a été développé par un groupe de recherche dirigé par Éric Wong, professeur adjoint à l'Université de Pennsylvanie. Celui de Robust Intelligence et de son équipe implique des améliorations supplémentaires qui permettent au système de générer des jailbreaks avec deux fois moins d'essais.
Brendan Dolan-Gavittprofesseur agrégé à l'Université de New York qui étudie la sécurité informatique et l'apprentissage automatique, affirme que la nouvelle technique révélée par Robust Intelligence montre que le réglage humain n'est pas un moyen étanche de sécuriser les modèles contre les attaques.
Dolan-Gavitt affirme que les entreprises qui construisent des systèmes sur de grands modèles de langage comme GPT-4 devraient utiliser des garanties supplémentaires. « Nous devons nous assurer que nous concevons des systèmes qui utilisent les LLM de manière à ce que les jailbreaks ne permettent pas aux utilisateurs malveillants d'accéder à des choses qu'ils ne devraient pas », dit-il.