Comme les systèmes d'IA générative comme ChatGPT d'OpenAI et Les Gémeaux de Google devenus plus avancés, ils sont de plus en plus mis à contribution. Les startups et les entreprises technologiques créent des agents et des écosystèmes d'IA au-dessus des systèmes qui peuvent effectuer des tâches ennuyeuses pour vous: pensez à faire automatiquement des réservations de calendrier et potentiellement acheter des produits. Mais à mesure que les outils bénéficient de plus de liberté, cela augmente également les possibilités d’attaque contre eux.
Aujourd'hui, dans le cadre d'une démonstration des risques liés aux écosystèmes d'IA autonomes et connectés, un groupe de chercheurs a créé l'un de ce qu'ils prétendent être les premiers vers d'IA génératifs, qui peuvent se propager d'un système à un autre, volant potentiellement des données ou déployant des logiciels malveillants dans le système. processus. « Cela signifie essentiellement que vous avez désormais la possibilité de mener ou d'exécuter un nouveau type de cyberattaque qui n'a jamais été vu auparavant », explique Ben Nassi, chercheur de Cornell Tech à l'origine de la recherche.
Nassi, avec ses collègues chercheurs Stav Cohen et Ron Bitton, a créé le ver, surnommé Morris II, en clin d'œil à l'original. Ver informatique Morris qui a provoqué le chaos sur Internet en 1988. Dans un document de recherche et site Web partagés exclusivement avec WIRED, les chercheurs montrent comment le ver IA peut attaquer un assistant de messagerie génératif IA pour voler les données des e-mails et envoyer des messages de spam, brisant ainsi certaines protections de sécurité dans ChatGPT et Gemini.
La recherche, qui a été entreprise dans des environnements de test et non contre un assistant de messagerie accessible au public, intervient comme grands modèles de langage (LLM) deviennent de plus en plus multimodaux, capables de générer des images et vidéo ainsi que texte. Bien que les vers d'IA générative n'aient pas encore été repérés dans la nature, plusieurs chercheurs affirment qu'ils constituent un risque de sécurité dont les startups, les développeurs et les entreprises technologiques devraient s'inquiéter.
La plupart des systèmes d'IA générative fonctionnent en recevant des invites, des instructions textuelles qui indiquent aux outils de répondre à une question ou de créer une image. Cependant, ces invites peuvent également être utilisées comme arme contre le système. Jailbreaks peut amener un système à ignorer ses règles de sécurité et à rejeter du contenu toxique ou haineux, tout en attaques par injection rapide peut donner des instructions secrètes à un chatbot. Par exemple, un attaquant peut masquer du texte sur une page Web dire à un LLM d'agir comme un escroc et de demander vos coordonnées bancaires.
Pour créer le ver génératif à IA, les chercheurs se sont tournés vers ce que l’on appelle une « invite contradictoire à auto-réplication ». Il s’agit d’une invite qui déclenche le modèle d’IA générative pour qu’il génère, dans sa réponse, une autre invite, disent les chercheurs. En bref, le système d’IA doit produire un ensemble d’instructions supplémentaires dans ses réponses. Ceci est globalement similaire au traditionnel Attaques par injection SQL et par débordement de tampondisent les chercheurs.
Pour montrer comment le ver peut fonctionner, les chercheurs ont créé un système de messagerie capable d'envoyer et de recevoir des messages à l'aide de l'IA générative, en se connectant à ChatGPT, Gemini et LLM open source. LLaVA. Ils ont ensuite trouvé deux façons d'exploiter le système : en utilisant une invite auto-répliquante basée sur du texte et en intégrant une invite auto-répliquante dans un fichier image.