De nombreux succès récents en matière de modèles de langage (LM) ont été obtenus dans le cadre d'un « paradigme statique », où l'accent est mis sur l'amélioration des performances sur les tests créés sans tenir compte de l'aspect temporel des données. Par exemple, répondre à des questions sur des événements dont le modèle pourrait avoir connaissance pendant la formation, ou évaluer sur un texte sous-échantillonné à partir de la même période que les données de formation. Cependant, notre langue et nos connaissances sont dynamiques et en constante évolution. Par conséquent, pour permettre une évaluation plus réaliste des modèles de questions-réponses en vue du prochain bond en avant en termes de performances, il est essentiel de garantir qu'ils sont flexibles et robustes face à des données nouvelles et invisibles.
En 2021, nous avons publié Attention à l'écart : évaluation de la généralisation temporelle dans les modèles de langage neuronal et le références de modélisation dynamique du langage pour WMT et arXiv afin de faciliter l'évaluation de modèles de langage qui prennent en compte la dynamique temporelle. Dans cet article, nous avons mis en évidence les problèmes auxquels les grands LM de pointe actuels sont confrontés en matière de généralisation temporelle et avons constaté que les jetons à forte intensité de connaissances subissent un impact considérable sur les performances.
Aujourd'hui, nous publions deux articles et un nouveau benchmark qui font progresser la recherche sur ce sujet. Dans StreamingQA : une référence pour l'adaptation aux nouvelles connaissances au fil du temps dans les modèles de réponse aux questionsnous étudions la tâche en aval de questions-réponses sur notre nouveau benchmark proposé, StreamingQA: nous voulons comprendre comment les modèles de questions-réponses paramétriques et semi-paramétriques augmentés par récupération s'adaptent aux nouvelles informations, afin de répondre aux questions sur de nouveaux événements. Dans Modèles linguistiques améliorés par Internet grâce à des invites en quelques étapes pour répondre à des questions en domaine ouvert, nous explorons la puissance de la combinaison d'un grand modèle de langage avec invites en quelques clics et de la recherche Google en tant que composant de récupération. Ce faisant, nous visons à améliorer la factualité du modèle, tout en veillant à ce qu'il ait accès à des informations à jour pour répondre à un ensemble diversifié de questions.
StreamingQA : une référence pour l'adaptation aux nouvelles connaissances au fil du temps dans les modèles de réponse aux questions
La connaissance et la compréhension du langage des modèles évalués par questions-réponses (QA) ont été couramment étudiées sur des instantanés statiques de connaissances, comme Wikipédia. Pour étudier comment les modèles d'assurance qualité semi-paramétriques et leurs LM paramétriques sous-jacents s'adaptent à l'évolution des connaissances, nous avons construit le nouveau benchmark à grande échelle, StreamingQA, avec des questions écrites par l'homme et générées automatiquement, posées à une date donnée, auxquelles il faudra répondre à partir de 14 ans d'expérience. articles de presse horodatés (voir Figure 2). Nous montrons que les modèles paramétriques peuvent être mis à jour sans recyclage complet, tout en évitant des oublis catastrophiques. Pour les modèles semi-paramétriques, l'ajout de nouveaux articles dans l'espace de recherche permet une adaptation rapide. Cependant, les modèles avec un LM sous-jacent obsolète sont sous-performants par rapport à ceux avec un LM recyclé.
Modèles linguistiques améliorés par Internet grâce à des invites en quelques étapes pour répondre à des questions dans un domaine ouvert
Nous visons à capitaliser sur les capacités uniques offertes par les modèles linguistiques à grande échelle pour surmonter certains de leurs défis, en ce qui concerne la base sur des informations factuelles et à jour. Motivés par les LM semi-paramétriques, qui fondent leurs décisions sur des preuves récupérées en externe, nous utilisons des invites en quelques étapes pour apprendre à conditionner les LM sur les informations renvoyées par le Web à l'aide de la recherche Google, une source de connaissances vaste et constamment mise à jour. Notre approche n'implique pas de réglage fin ou d'apprentissage de paramètres supplémentaires, ce qui la rend applicable à pratiquement n'importe quel modèle de langage. Et en effet, nous constatons que les LM conditionnés sur le Web surpassent les performances des modèles à livre fermé de taille similaire, voire plus grande, dans la réponse aux questions en domaine ouvert.