Responsabilité et sécurité
Une nouvelle recherche propose un cadre pour évaluer les modèles à usage général contre les nouvelles menaces
Pour être pionniers de manière responsable à la pointe de la recherche sur l’intelligence artificielle (IA), nous devons identifier le plus tôt possible les nouvelles capacités et les nouveaux risques dans nos systèmes d’IA.
Les chercheurs en IA utilisent déjà une gamme de critères d'évaluation pour identifier les comportements indésirables dans les systèmes d'IA, tels que les systèmes d'IA faisant des déclarations trompeuses, des décisions biaisées ou la répétition de contenus protégés par le droit d'auteur. Aujourd’hui, alors que la communauté de l’IA construit et déploie une IA de plus en plus puissante, nous devons élargir le portefeuille d’évaluation pour inclure la possibilité de risques extrêmes à partir de modèles d’IA à usage général dotés de solides compétences en manipulation, tromperie, cyber-offensive ou autres capacités dangereuses.
Dans notre dernier articlenous introduisons un cadre pour évaluer ces nouvelles menaces, co-écrit avec des collègues de l'Université de Cambridge, de l'Université d'Oxford, de l'Université de Toronto, de l'Université de Montréal, OpenAI, Anthropic, Alignment Research Center, Centre for Long-Term Resilience et Centre pour la gouvernance de l’IA.
Les évaluations de sécurité des modèles, y compris celles évaluant les risques extrêmes, constitueront un élément essentiel du développement et du déploiement sûrs de l’IA.
Évaluation des risques extrêmes
Les modèles à usage général apprennent généralement leurs capacités et leurs comportements pendant la formation. Cependant, les méthodes existantes pour piloter le processus d’apprentissage sont imparfaites. Par exemple, Recherche précédente chez Google, DeepMind a exploré comment les systèmes d'IA peuvent apprendre à poursuivre des objectifs indésirables même lorsque nous les récompensons correctement pour leur bon comportement.
Les développeurs d’IA responsables doivent regarder vers l’avenir et anticiper les évolutions futures possibles et les nouveaux risques. Après des progrès continus, les futurs modèles à usage général pourraient apprendre par défaut une variété de capacités dangereuses. Par exemple, il est plausible (bien qu'incertain) que les futurs systèmes d'IA soient capables de mener des cyberopérations offensives, de tromper habilement les humains dans le dialogue, de manipuler les humains pour qu'ils accomplissent des actions nuisibles, de concevoir ou d'acquérir des armes (par exemple biologiques, chimiques), etc. régler et exploiter d'autres systèmes d'IA à haut risque sur des plates-formes de cloud computing, ou aider les humains dans l'une de ces tâches.
Les personnes malveillantes qui accèdent à ces modèles pourraient abuser leurs capacités. Ou bien, en raison de défauts d’alignement, ces modèles d’IA pourraient prendre des mesures nuisibles, même sans que personne ne le veuille.
L’évaluation du modèle nous aide à identifier ces risques à l’avance. Dans notre cadre, les développeurs d’IA utiliseraient l’évaluation de modèles pour découvrir :
- Dans quelle mesure un modèle possède certaines « capacités dangereuses » qui pourraient être utilisées pour menacer la sécurité, exercer une influence ou échapper à la surveillance.
- Dans quelle mesure le modèle est enclin à appliquer ses capacités pour causer du tort (c'est-à-dire l'alignement du modèle). Les évaluations d'alignement doivent confirmer que le modèle se comporte comme prévu, même dans un très large éventail de scénarios, et, si possible, doivent examiner le fonctionnement interne du modèle.
Les résultats de ces évaluations aideront les développeurs d’IA à comprendre si les ingrédients suffisants pour provoquer un risque extrême sont présents. Les cas les plus à haut risque impliqueront plusieurs capacités dangereuses combinées. Le système d’IA n’a pas besoin de fournir tous les ingrédients, comme le montre ce schéma :
En règle générale : la communauté de l'IA devrait considérer un système d'IA comme très dangereux s'il possède un profil de capacités suffisant pour causer des dommages extrêmes, en supposant il est mal utilisé ou mal aligné. Pour déployer un tel système dans le monde réel, un développeur d’IA devrait démontrer un niveau de sécurité inhabituellement élevé.
Évaluation du modèle en tant qu’infrastructure de gouvernance critique
Si nous disposons de meilleurs outils pour identifier les modèles risqués, les entreprises et les régulateurs pourront mieux garantir :
- Formation responsable : Des décisions responsables sont prises quant à savoir si et comment former un nouveau modèle qui montre les premiers signes de risque.
- Déploiement responsable: Des décisions responsables sont prises quant à savoir si, quand et comment déployer des modèles potentiellement risqués.
- Transparence: Des informations utiles et exploitables sont communiquées aux parties prenantes, pour les aider à se préparer ou à atténuer les risques potentiels.
- Une sécurité appropriée : Des contrôles et des systèmes rigoureux de sécurité des informations sont appliqués aux modèles susceptibles de présenter des risques extrêmes.
Nous avons développé un modèle sur la manière dont les évaluations de modèles pour les risques extrêmes devraient alimenter les décisions importantes concernant la formation et le déploiement d'un modèle polyvalent et hautement performant. Le développeur effectue des évaluations tout au long et accorde accès au modèle structuré à des chercheurs externes en matière de sécurité et auditeurs modèles afin qu'ils puissent mener évaluations supplémentaires Les résultats de l’évaluation peuvent ensuite éclairer les évaluations des risques avant la formation et le déploiement du modèle.
Regarder vers l'avant
Important tôt travail sur les évaluations de modèles pour les risques extrêmes est déjà en cours chez Google DeepMind et ailleurs. Mais des progrès bien plus importants – tant techniques qu’institutionnels – sont nécessaires pour construire un processus d’évaluation qui détecte tous les risques possibles et contribue à se prémunir contre les défis futurs et émergents.
L’évaluation des modèles n’est pas une panacée ; certains risques pourraient passer à travers les mailles du filet, par exemple parce qu'ils dépendent trop de facteurs externes au modèle, tels que forces sociales, politiques et économiques complexes en société. L'évaluation des modèles doit être combinée avec d'autres outils d'évaluation des risques et avec un engagement plus large en faveur de la sécurité au sein de l'industrie, du gouvernement et de la société civile.
Le récent blog de Google sur l'IA responsable déclare que « des pratiques individuelles, des normes industrielles partagées et des politiques gouvernementales judicieuses seraient essentielles pour réussir l’IA ». Nous espérons que de nombreuses autres personnes travaillant dans le domaine de l’IA et dans les secteurs touchés par cette technologie se réuniront pour créer des approches et des normes permettant de développer et de déployer l’IA en toute sécurité, pour le bénéfice de tous.
Nous pensons que disposer de processus permettant de suivre l’émergence de propriétés à risque dans les modèles et de répondre de manière adéquate aux résultats préoccupants est un élément essentiel pour être un développeur responsable opérant à la frontière des capacités de l’IA.