OpenAI a mis en place des garde-fous de sécurité pour s'assurer que son IA ne génère pas de contenu illicite ou dangereux. Cependant, des chercheurs de l'université Brown aux États-Unis ont trouvé une astuce permettant d'outrepasser ces mesures de protection. Pour ce faire, ils ont soumis à GPT-4 des requêtes dans des langues moins répandues comme le gaélique écossais, le zoulou ou encore le hmong.
Des filtres de sécurité pour une utilisation sûre et éthique de l'IA
Les chatbots comme ChatGPT fonctionnent grâce à de vastes bases de données sur lesquelles leurs algorithmes sont entraînées. Ces informations, de diverses natures, permettent à l'IA de répondre à toutes sortes de requêtes. Cette capacité signifie aussi que, sans garde-fous, le robot conversationnel peut également fournir des contenus illégaux ou dangereux s'il en reçoit la demande.
Afin d'éviter cela, OpenAI a instauré des filtres de sécurité visant à empêcher la génération de certains types de réponses. Sans ces barrières, le chatbot, basé sur GPT-4 pourrait par exemple fournir des instructions sur la fabrication d'explosifs ou de drogues. Les garde-fous bloquent aussi la génération de contenus discriminatoires, racistes et à caractère sexuel. Ils permettent également d'éviter que ChatGPT ne divulgue des informations personnelles confidentielles. Ces barrières de sécurité ont pour objectif de garantir une utilisation sûre et éthique de l'IA.
Lorsque ChatGPT décèle une requête contrevenant à ces règles, il répond par un message indiquant son incapacité à y répondre.
Des invitations traduites en d'autres langues révèlent les failles de sécurité de GPT-4
Des chercheurs de l'Université Brown aux États-Unis ont cherché une méthode pour contourner les filtres de sécurité mis en place par OpenAI dans GPT-4. Ils ont notamment traduit en des langues peu communes et rares comme le guarani, le zoulou, le gaélique écossais ou encore le hmong des invitations que le chatbot est censé refuser. Pour cela, ils ont tout simplement passé par Google Traduction.
ChatGPT bloque et ne fournit aucune réponse à une requête illicite soumise en anglais. Cependant, une fois cette même requête traduite dans une langue rare, le chatbot ne parvenir plus à en détecter la nature potentiellement dangereuse ou illégalement et génère alors un contenu en réponse.
Les chercheurs ont testé cette méthode sur 520 requêtes traduites que ChatGPT est censée rejeter. Ils ont, entre autres, demandé à l'IA de fournir des instructions pour fabriquer des explosifs artisanaux à l'aide de produits ménagers courants. Résultats : les filtres bloquent efficacement 99% des instructions illégaux en anglais. Mais dans les autres langues, ils sont parvenus à tromper l'IA et à obtenir des réponses dans 79% des cas. Avec des langues plus parlées comme le thaï, le bengali ou l'hébreu, le taux de contournement des barrières de sécurité était plus faible.
Des réponses parfois dénuées de sens
Les chercheurs soulignent que même si GPT-4 ne bloque pas les requêtes illégalement traduites dans des langues peu connues, les réponses que l'IA génère sont parfois sans signification. Par exemple, à la réponse de la requête précédente, la réponse générée, lorsqu'une fois traduite en anglais ou en français, se révèle inutile.
Quoi qu'il en soit, cette expérimentation démontre qu'avec des tentatives de manipulation plus élaborées, l'IA pourrait finir par divulguer des informations véritablement dangereuses. Ce n'est pas la première fois que les filtres de sécurité de ChatGPT présentent des failles. Précédemment, un outil nommé La clef maitresse était déjà parvenu à contourner les barrières mises en place.
Les développeurs de ces technologies doivent ainsi constamment adapter et renforcer leurs garde-fous afin de parer à des tentatives de manipulation et d'exploitation malveillante de leur IA.
Notre blog est alimenté par les lecteurs. Lorsque vous achetez via des liens sur notre site, nous pouvons percevoir une commission d'affiliation.