DeepMind a publié un série de documents sur les grands modèles de langage (LLM) l'année dernière, y compris une analyse de Gopher, notre grand modèle de langage. La technologie de modélisation linguistique, qui est également actuellement développée par plusieurs autres laboratoires et entreprises, promet de renforcer de nombreuses applications, depuis moteurs de recherche à une nouvelle vague de type chatbot assistants conversationnels et au-delà. Un papier dans cette série, nous avons exposé un certain nombre de raisons pour lesquelles les modèles de langage « bruts » comme Gopher ne répondent pas à nos normes pour déployer en toute sécurité cette technologie dans des applications destinées aux utilisateurs, en particulier si des garde-corps pour gérer les comportements problématiques et potentiellement dangereux ne sont pas mis en place.
Nos derniers travaux se concentrent sur l’une de ces préoccupations : les modèles linguistiques comme Gopher peuvent « halluciner » des faits qui semblent plausibles mais qui sont en réalité faux. Ceux qui connaissent ce problème savent qu’il faut procéder à leur propre vérification des faits, plutôt que de se fier à ce que disent les modèles linguistiques. Ceux qui ne le sont pas peuvent finir par croire quelque chose qui n’est pas vrai. Cet article décrit GopherCite, un modèle qui vise à résoudre le problème de l'hallucination du modèle de langage. GopherCite tente d'étayer toutes ses affirmations factuelles avec des preuves provenant du Web. Il utilise la recherche Google pour trouver des pages Web pertinentes sur Internet et cite un passage qui tente de démontrer pourquoi sa réponse est correcte. Si le système est incapable de formuler une réponse qui puisse être solidement étayée par des preuves, il dit à l'utilisateur : « Je ne sais pas », au lieu de fournir une réponse non fondée.
Soutenir des affirmations factuelles simples avec des preuves facilement vérifiables est une étape vers la création de modèles de langage plus fiables, à la fois pour les utilisateurs qui interagissent avec eux et pour les annotateurs évaluant la qualité des échantillons. Une comparaison entre le comportement de Gopher « brut » et notre nouveau modèle est utile pour illustrer ce changement.
D'après la réponse de GopherCite, vous remarquerez que Gopher a inventé un fait (« Lake Placid a accueilli les Jeux olympiques d'hiver en 1936 ») sans avertissement. Lorsque GopherCite nous montre un extrait vérifié d'une page Wikipédia pertinente, nous pouvons confirmer que Lake Placid n'a accueilli les Jeux olympiques que deux fois, en 1932 et 1980.
Pour modifier le comportement de Gopher de cette manière, nous avons entraîné Gopher selon les préférences humaines. Nous avons demandé aux participants à une étude auprès des utilisateurs de choisir leur réponse préférée parmi deux candidats, en fonction de critères tels que la mesure dans laquelle les preuves étayent les réponses données. Ces étiquettes ont été utilisées comme données de formation à la fois pour l'apprentissage supervisé sur des échantillons hautement notés et pour apprentissage par renforcement à partir des préférences humaines (RLHP). Nous avons également adopté cette approche dans nos récents travaux sur le red teaming.
Nous ne sommes pas les seuls à nous intéresser à ce problème d’inexactitude factuelle dans les modèles linguistiques. Nos collègues de Google ont récemment progressé sur le plan factuel dans leur dernier Système LaMDA, en faisant interagir un modèle conversationnel avec la recherche Google et en partageant parfois des URL pertinentes. En effet, le programme de formation de GopherCite utilise une méthodologie similaire à celle de LaMDA, mais une différence essentielle est que nous visons à fournir un extrait spécifique de preuves pertinentes, plutôt que de simplement pointer l'utilisateur vers une URL. Basé sur des motivations similaires aux nôtres, OpenAI a travaux récemment annoncés développer un système étroitement lié appelé WebGPT, qui applique également RLHP pour aligner son modèle de langage GPT-3. Alors que GopherCite se concentre sur la lecture de longs documents, WebGPT organise soigneusement le contexte présenté au modèle de langage en interagissant plusieurs fois avec un navigateur Web. Il cite également des preuves pour étayer ses réponses. Les similitudes et les différences entre ces systèmes et le nôtre sont discutées dans notre article et nous démontrons également que GopherCite fournit très souvent des preuves convaincantes de ses affirmations.
Nous avons mené une étude auprès des utilisateurs auprès de participants rémunérés pour évaluer le modèle sur deux types de questions : des questions de recherche de faits saisies dans la recherche Google (publié par Google dans un ensemble de données appelé « NaturalQuestions »), et des questions de recherche d'explications que les utilisateurs de Reddit ont posées sur un forum appelé « /r/eli5 » (« Expliquez-le comme si j'avais 5 (ans) »). Les participants à notre étude ont déterminé que GopherCite répond correctement aux questions de recherche de faits – et avec des preuves satisfaisantes – environ 80 % du temps, et qu’il le fait aux questions de recherche d’explications environ 67 % du temps. Lorsque nous permettons à GopherCite de s'abstenir de répondre à certaines questions, ses performances s'améliorent considérablement parmi les questions auxquelles il choisit de répondre (voir l'article pour plus de détails). Ce mécanisme explicite d’abstention est une contribution essentielle de notre travail.
Mais lorsque nous évaluons le modèle sur un ensemble de questions « contradictoires », qui tentent de tromper le modèle en lui faisant répéter une fiction ou une idée fausse énoncée sur Internet, GopherCite tombe souvent dans le piège. Par exemple, lorsqu’on lui demande « qu’est-ce que Red Bull vous offre ? », voici comment il répond :
Nous pensons que ce mode d'échec et d'autres évoqués dans notre article peuvent être évités en enrichissant le cadre, en passant d'une réponse « ponctuelle » à la question d'un utilisateur à un mode dans lequel le modèle peut poser des questions de clarification à l'utilisateur et s'engager dans une dialogue. Par exemple, nous pourrions permettre aux futurs modèles de demander à l’utilisateur s’il souhaite une réponse littéralement vraie ou une réponse vraie dans les limites du monde fictif d’une publicité Red Bull.
En résumé, nous pensons que GopherCite est un pas en avant important, mais sa construction nous a appris que la citation des preuves n'est qu'une partie d'une stratégie globale de sécurité et de fiabilité. Plus fondamentalement, toutes les affirmations ne nécessitent pas de citer des preuves – et comme nous l’avons démontré ci-dessus, toutes les affirmations étayées par des preuves ne sont pas vraies. Certaines affirmations nécessitent plusieurs éléments de preuve ainsi qu’un argument logique expliquant pourquoi l’affirmation suit. Nous continuerons à travailler dans ce domaine et viserons à surmonter les problèmes présentés grâce à des recherches et développements approfondis ainsi qu'à des recherches sociotechniques dédiées.
Notre article couvre beaucoup plus de détails sur nos méthodes, nos expériences et le contexte pertinent tirés de la littérature de recherche. Nous avons également créé une FAQ sur GopherCite, à laquelle répond le modèle lui-même après avoir lu l'introduction de l'article (en utilisant des échantillons candidats sélectionnés par les auteurs) :