Pour que le langage naturel soit une forme de communication efficace, les parties impliquées doivent être capables de comprendre les mots et leur contexte, de supposer que le contenu est largement partagé de bonne foi et digne de confiance, de raisonner sur les informations partagées, puis de appliquez-le à des scénarios du monde réel. Les doctorants du MIT en stage au MIT-IBM Watson AI Lab — Athul Paul Jacob SM '22, Maohao Shen SM '23, Victor Butoi et Andi Peng SM '23 — s'efforcent d'attaquer chaque étape de ce processus intégré au langage naturel. modèles, afin que les systèmes d’IA puissent être plus fiables et plus précis pour les utilisateurs.
Pour y parvenir, les recherches de Jacob frappent au cœur des modèles de langage naturel existants pour améliorer le résultat, en utilisant la théorie des jeux. Ses intérêts, dit-il, sont doubles : « L'un consiste à comprendre le comportement des humains, en utilisant le prisme des systèmes multi-agents et de la compréhension du langage, et le deuxième est de savoir comment utiliser cela comme éclairage pour créer une meilleure IA. systèmes ?' » Son travail découle du jeu de société « Diplomatie », dans lequel son équipe de recherche a développé un système capable d'apprendre et de prédire les comportements humains et de négocier stratégiquement pour atteindre un résultat optimal souhaité.
« C’était un jeu où il fallait instaurer la confiance ; vous devez communiquer en utilisant la langue. Vous devez également jouer contre six autres joueurs en même temps, ce qui est très différent de tous les types de domaines de tâches auxquels les gens s'attaquaient dans le passé », explique Jacob, faisant référence à d'autres jeux comme le poker et GO que les chercheurs ont soumis aux réseaux de neurones. . « Ce faisant, nous avons rencontré de nombreux défis en matière de recherche. L'une d'entre elles était : « Comment modélisez-vous les humains ? Comment savoir si les humains ont tendance à agir de manière irrationnelle ? » Jacob et ses mentors de recherche, dont le professeur agrégé Jacob Andreas et le professeur adjoint Gabriele Farina du département de génie électrique et d'informatique (EECS) du MIT et du MIT-IBM Watson Yikang Shen d'AI Lab — a reformulé le problème de la génération du langage sous la forme d'un jeu à deux joueurs.
À l'aide de modèles « générateur » et « discriminateur », l'équipe de Jacob a développé un système de langage naturel pour produire des réponses aux questions, puis observer les réponses et déterminer si elles sont correctes. Si tel est le cas, le système d’IA reçoit un point ; sinon, aucun point n'est récompensé. Il est notoire que les modèles linguistiques ont tendance à halluciner, ce qui les rend moins fiables ; cet algorithme d'apprentissage sans regret utilise de manière collaborative un modèle de langage naturel et encourage les réponses du système à être plus véridiques et plus fiables, tout en gardant les solutions proches des priorités du modèle de langage pré-entraîné. Jacob dit que l'utilisation de cette technique en conjonction avec un modèle de langage plus petit pourrait probablement la rendre compétitive avec les mêmes performances d'un modèle plusieurs fois plus grand.
Une fois qu'un modèle de langage génère un résultat, les chercheurs souhaitent idéalement que sa confiance dans sa génération s'aligne sur son exactitude, mais ce n'est souvent pas le cas. Des hallucinations peuvent survenir lorsque le modèle indique un niveau de confiance élevé alors qu'il devrait être faible. Maohao Shen et son groupe, avec les mentors Gregory Wornell, professeur d'ingénierie Sumitomo à l'EECS, et les chercheurs de laboratoire d'IBM Research Subhro Das, Prasanna Sattigeri et Soumya Ghosh, cherchent à résoudre ce problème grâce à la quantification de l'incertitude (UQ). « Notre projet vise à calibrer les modèles de langage lorsqu'ils sont mal calibrés », explique Shen. Plus précisément, ils examinent le problème de la classification. Pour cela, Shen permet à un modèle de langage de générer du texte libre, qui est ensuite converti en une tâche de classification à choix multiples. Par exemple, ils peuvent demander au modèle de résoudre un problème mathématique, puis lui demander si la réponse qu'il a générée est correcte : « oui, non ou peut-être ». Cela permet de déterminer si le modèle est trop ou pas assez confiant.
En automatisant cela, l'équipe a développé une technique qui permet d'ajuster la confiance générée par un modèle de langage pré-entraîné. Les chercheurs ont formé un modèle auxiliaire en utilisant les informations de vérité terrain afin que leur système puisse corriger le modèle de langage. « Si votre modèle est trop confiant dans sa prédiction, nous sommes capables de le détecter et de le rendre moins confiant, et vice versa », explique Shen. L'équipe a évalué sa technique sur plusieurs ensembles de données de référence populaires pour montrer dans quelle mesure elle se généralise à des tâches invisibles pour réaligner l'exactitude et la confiance des prédictions du modèle de langage. « Après la formation, vous pouvez simplement vous connecter et appliquer cette technique à de nouvelles tâches sans aucune autre supervision », explique Shen. « La seule chose dont vous avez besoin, ce sont les données pour cette nouvelle tâche. »
Victor Butoi améliore également la capacité du modèle, mais son équipe de laboratoire, qui comprend John Guttag, professeur Dugald C. Jackson d'informatique et de génie électrique à l'EECS ; les chercheurs du laboratoire Leonid Karlinsky et Rogerio Feris d'IBM Research ; et Hilde Kühne de l'Université de Bonn et Wei Lin de l'Université de technologie de Graz, affiliées au laboratoire, créent des techniques permettant aux modèles de langage visuel de raisonner sur ce qu'ils voient et conçoivent des invites pour débloquer de nouvelles capacités d'apprentissage et comprendre des phrases clés. .
Le raisonnement compositionnel n'est qu'un autre aspect du processus de prise de décision que nous demandons aux modèles d'apprentissage automatique d'exécuter afin qu'ils soient utiles dans des situations réelles, explique Butoi. « Vous devez être capable de réfléchir aux problèmes de manière compositionnelle et de résoudre des sous-tâches », explique Butoi, « par exemple, si vous dites que la chaise est à gauche de la personne, vous devez reconnaître à la fois la chaise et la personne. Vous devez comprendre les directions. Et puis, une fois que le modèle comprend la « gauche », l’équipe de recherche souhaite que le modèle soit capable de répondre à d’autres questions impliquant la « gauche ».
Étonnamment, les modèles de langage visuel ne raisonnent pas bien sur la composition, explique Butoi, mais on peut les y aider, en utilisant un modèle qui peut « diriger le témoin », si vous voulez. L’équipe a développé un modèle qui a été peaufiné à l’aide d’une technique appelée adaptation de bas rang de grands modèles de langage (LoRA) et formé sur un ensemble de données annotées appelé Visual Genome, qui contient des objets dans une image et des flèches indiquant des relations, comme des directions. Dans ce cas, le modèle LoRA formé serait guidé pour dire quelque chose sur les relations « de gauche », et cette sortie de légende serait ensuite utilisée pour fournir un contexte et inciter le modèle de langage de vision, ce qui en ferait une « tâche considérablement plus facile », explique Butoi. .
Dans le monde de la robotique, les systèmes d’IA interagissent également avec leur environnement grâce à la vision par ordinateur et au langage. Les paramètres peuvent aller des entrepôts à la maison. Andi Peng et ses mentors, Julie Shah, professeure d'aéronautique et d'astronautique HN Slater du MIT, et Chuang Gan, du laboratoire et de l'Université du Massachusetts à Amherst, se concentrent sur l'assistance aux personnes souffrant de contraintes physiques, en utilisant des mondes virtuels. Pour cela, le groupe de Peng développe deux modèles d'IA incarnés – un « humain » qui a besoin de soutien et un agent assistant – dans un environnement simulé appelé ThreeDWorld. En se concentrant sur les interactions humain/robot, l’équipe exploite les priorités sémantiques capturées par de grands modèles de langage pour aider l’IA auxiliaire à déduire quelles capacités l’agent « humain » pourrait ne pas être capable d’exercer et la motivation derrière les actions de l’« humain », en utilisant des méthodes naturelles. langue. L'équipe cherche à renforcer la prise de décision séquentielle, la communication bidirectionnelle, la capacité à comprendre la scène physique et la meilleure façon de contribuer.
« Beaucoup de gens pensent que les programmes d'IA devraient être autonomes, mais je pense qu'une partie importante du processus consiste à construire des robots et des systèmes pour les humains, et à transmettre les connaissances humaines », explique Peng. « Nous ne voulons pas qu'un système fasse quelque chose de bizarre ; nous voulons qu’ils le fassent d’une manière humaine que nous pouvons comprendre.