Recherche
Entraîner une IA à communiquer d'une manière plus utile, correcte et inoffensive
Ces dernières années, les grands modèles linguistiques (LLM) ont réussi dans une série de tâches telles que la réponse aux questions, la synthèse et le dialogue. Le dialogue est une tâche particulièrement intéressante car elle implique une communication flexible et interactive. Cependant, les agents de dialogue alimentés par les LLM peuvent exprimer des informations inexactes ou inventées, utiliser un langage discriminatoire ou encourager des comportements dangereux.
Pour créer des agents de dialogue plus sûrs, nous devons être capables d’apprendre des retours humains. En appliquant l'apprentissage par renforcement basé sur les commentaires des participants à la recherche, nous explorons de nouvelles méthodes de formation des agents de dialogue qui s'avèrent prometteuses pour un système plus sûr.
Dans notre dernier articlenous introduisons Moineau – un agent de dialogue utile qui réduit le risque de réponses dangereuses et inappropriées. Notre agent est conçu pour parler avec un utilisateur, répondre à des questions et effectuer des recherches sur Internet à l'aide de Google lorsqu'il est utile de rechercher des preuves pour éclairer ses réponses.
Sparrow est un modèle de recherche et une preuve de concept, conçu dans le but de former les agents de dialogue à être plus utiles, corrects et inoffensifs. En apprenant ces qualités dans un cadre de dialogue général, Sparrow fait progresser notre compréhension de la manière dont nous pouvons former les agents pour qu'ils soient plus sûrs et plus utiles – et, en fin de compte, pour aider à construire une intelligence artificielle générale (AGI) plus sûre et plus utile.
Comment fonctionne Sparrow
Entraîner une IA conversationnelle est un problème particulièrement difficile car il est difficile d’identifier ce qui fait la réussite d’un dialogue. Pour résoudre ce problème, nous nous tournons vers une forme d'apprentissage par renforcement (RL) basée sur les commentaires des personnes, en utilisant les commentaires sur les préférences des participants à l'étude pour former un modèle de l'utilité d'une réponse.
Pour obtenir ces données, nous montrons à nos participants plusieurs modèles de réponses à la même question et leur demandons quelle réponse ils préfèrent. Parce que nous montrons les réponses avec et sans preuves récupérées sur Internet, ce modèle peut également déterminer quand une réponse doit être étayée par des preuves.
Mais l’augmentation de l’utilité n’est qu’une partie du problème. Pour nous assurer que le comportement du modèle est sûr, nous devons contraindre son comportement. Nous déterminons donc un premier ensemble de règles simples pour le modèle, telles que « ne faites pas de déclarations menaçantes » et « ne faites pas de commentaires haineux ou insultants ».
Nous fournissons également des règles concernant les conseils potentiellement préjudiciables et le fait de ne pas prétendre être une personne. Ces règles ont été éclairées par l’étude des travaux existants sur les préjudices linguistiques et par la consultation d’experts. Nous demandons ensuite aux participants à notre étude de parler à notre système, dans le but de l'inciter à enfreindre les règles. Ces conversations nous permettent ensuite de former un « modèle de règles » distinct qui indique quand le comportement de Sparrow enfreint l'une des règles.
Vers une meilleure IA et de meilleurs jugements
Vérifier l'exactitude des réponses de Sparrow est difficile, même pour les experts. Au lieu de cela, nous demandons à nos participants de déterminer si les réponses de Sparrow sont plausibles et si les preuves fournies par Sparrow soutiennent réellement la réponse. Selon nos participants, Sparrow fournit une réponse plausible et l’étaye par des preuves dans 78 % des cas lorsqu’on lui pose une question factuelle. Il s’agit d’une grande amélioration par rapport à nos modèles de base. Pourtant, Sparrow n’est pas à l’abri de commettre des erreurs, comme halluciner des faits et donner des réponses parfois hors sujet.
Sparrow peut également améliorer son respect des règles. Après la formation, les participants étaient encore capables de l'inciter à enfreindre nos règles dans 8 % des cas, mais par rapport aux approches plus simples, Sparrow parvient mieux à suivre nos règles dans le cadre d'une enquête contradictoire. Par exemple, notre modèle de dialogue original enfreignait les règles environ 3 fois plus souvent que Sparrow lorsque nos participants essayaient de l'inciter à le faire.
Notre objectif avec Sparrow était de construire un mécanisme flexible pour faire respecter les règles et les normes chez les agents de dialogue, mais les règles particulières que nous utilisons sont préliminaires. L’élaboration d’un ensemble de règles meilleures et plus complètes nécessitera à la fois l’apport d’experts sur de nombreux sujets (y compris les décideurs politiques, les spécialistes des sciences sociales et les éthiciens) et l’apport participatif d’un large éventail d’utilisateurs et de groupes concernés. Nous pensons que nos méthodes s’appliqueront toujours à un ensemble de règles plus rigoureuses.
Sparrow constitue une avancée significative dans la compréhension de la manière de former les agents de dialogue pour qu'ils soient plus utiles et plus sûrs. Cependant, une communication réussie entre les personnes et les agents de dialogue doit non seulement éviter tout préjudice, mais aussi être alignée sur les valeurs humaines pour une communication efficace et bénéfique, comme indiqué dans des travaux récents sur aligner les modèles de langage sur les valeurs humaines.
Nous soulignons également qu'un bon agent refusera toujours de répondre aux questions dans des contextes où il est approprié de s'en remettre aux humains ou lorsque cela a le potentiel de dissuader les comportements nuisibles. Enfin, notre recherche initiale s'est concentrée sur un agent anglophone, et des travaux supplémentaires sont nécessaires pour garantir des résultats similaires dans d'autres langues et contextes culturels.
À l’avenir, nous espérons que les conversations entre humains et machines pourront conduire à une meilleure appréciation du comportement de l’IA, permettant ainsi aux utilisateurs d’aligner et d’améliorer des systèmes qui pourraient être trop complexes à comprendre sans l’aide des machines.
Désireux d’explorer une voie conversationnelle vers une AGI sûre ? Étaient nous recrutons actuellement des chercheurs scientifiques pour notre équipe d’alignement évolutif.