Le langage naturel transmet des idées, des actions, des informations et des intentions à travers le contexte et la syntaxe ; de plus, des volumes importants sont contenus dans des bases de données. Cela en fait une excellente source de données sur laquelle former les systèmes d’apprentissage automatique. Deux étudiants en maîtrise en ingénierie du programme de thèse 6A MEng du MIT, Irene Terpstra '23 et Rujul Gandhi '22, travaillent avec des mentors du MIT-IBM Watson AI Lab pour utiliser cette puissance du langage naturel pour créer des systèmes d'IA.
À mesure que l'informatique devient de plus en plus avancée, les chercheurs cherchent à améliorer le matériel sur lequel ils fonctionnent ; cela signifie innover pour créer de nouvelles puces informatiques. Et, puisqu'il existe déjà de la littérature sur les modifications qui peuvent être apportées pour atteindre certains paramètres et performances, Terpstra et ses mentors et conseillers Anantha Chandrakasan, doyenne de la MIT School of Engineering et professeur Vannevar Bush de génie électrique et d'informatique, et chercheuse d'IBM. Xin Zhang développe un algorithme d'IA qui aide à la conception de puces.
« Je crée un flux de travail pour analyser systématiquement la manière dont ces modèles de langage peuvent aider le processus de conception de circuits. De quels pouvoirs de raisonnement disposent-ils et comment peut-il être intégré dans le processus de conception des puces ? dit Terpstra. « Et puis d'un autre côté, si cela s'avère suffisamment utile, (nous verrons) s'ils peuvent concevoir automatiquement les puces eux-mêmes, en les attachant à un algorithme d'apprentissage par renforcement. »
Pour ce faire, l'équipe de Terpstra crée un système d'IA capable d'itérer sur différentes conceptions. Cela signifie expérimenter divers grands modèles de langage pré-entraînés (comme ChatGPT, Llama 2 et Bard), en utilisant un langage de simulation de circuit open source appelé NGspice, qui contient les paramètres de la puce sous forme de code et un algorithme d'apprentissage par renforcement. Grâce à des invites textuelles, les chercheurs pourront demander comment la puce physique doit être modifiée pour atteindre un certain objectif dans le modèle de langage et produire des conseils pour les ajustements. Ceci est ensuite transféré dans un algorithme d'apprentissage par renforcement qui met à jour la conception du circuit et génère de nouveaux paramètres physiques de la puce.
« L'objectif final serait de combiner les pouvoirs de raisonnement et la base de connaissances intégrées dans ces grands modèles de langage et de combiner cela avec la puissance d'optimisation des algorithmes d'apprentissage par renforcement et de faire en sorte que cela conçoive la puce elle-même », explique Terpstra.
Rujul Gandhi travaille avec le langage brut lui-même. En tant qu'étudiante de premier cycle au MIT, Gandhi a exploré la linguistique et l'informatique, les rassemblant dans son travail de MEng. «Je m'intéresse à la communication, à la fois entre humains et entre humains et ordinateurs», explique Gandhi.
Les robots ou autres systèmes d'IA interactifs sont un domaine dans lequel la communication doit être comprise à la fois par les humains et les machines. Les chercheurs écrivent souvent des instructions pour les robots en utilisant une logique formelle. Cela permet de garantir que les commandes sont suivies en toute sécurité et comme prévu, mais la logique formelle peut être difficile à comprendre pour les utilisateurs, alors que le langage naturel est facile à comprendre. Pour garantir cette communication fluide, Gandhi et ses conseillers Yang Zhang d'IBM et Chuchu Fan, professeur adjoint au MIT, construisent un analyseur qui convertit les instructions en langage naturel en un formulaire convivial pour les machines. Tirant parti de la structure linguistique codée par le modèle d'encodeur-décodeur pré-entraîné T5 et d'un ensemble de données de commandes anglaises de base annotées pour effectuer certaines tâches, le système de Gandhi identifie les plus petites unités logiques, ou propositions atomiques, présentes dans une instruction donnée.
« Une fois que vous avez donné vos instructions, le modèle identifie toutes les petites sous-tâches que vous souhaitez qu'il exécute », explique Gandhi. « Ensuite, en utilisant un grand modèle de langage, chaque sous-tâche peut être comparée aux actions et objets disponibles dans le monde du robot, et si une sous-tâche ne peut pas être exécutée parce qu'un certain objet n'est pas reconnu, ou qu'une action n’est pas possible, le système peut s’arrêter là pour demander de l’aide à l’utilisateur.
Cette approche consistant à diviser les instructions en sous-tâches permet également à son système de comprendre les dépendances logiques exprimées en anglais, comme « effectuer la tâche X jusqu'à ce que l'événement Y se produise ». Gandhi utilise un ensemble de données d'instructions étape par étape dans des domaines de tâches robotiques tels que la navigation et la manipulation, en mettant l'accent sur les tâches ménagères. Utiliser des données écrites de la même manière que les humains se parleraient présente de nombreux avantages, dit-elle, car cela signifie qu'un utilisateur peut être plus flexible dans la façon dont il formule ses instructions.
Un autre projet de Gandhi consiste à développer des modèles de parole. Dans le contexte de la reconnaissance vocale, certaines langues sont considérées comme « à faibles ressources » car elles peuvent ne pas disposer de beaucoup de parole transcrite, voire ne pas avoir de forme écrite du tout. « L'une des raisons pour lesquelles j'ai postulé à ce stage au MIT-IBM Watson AI Lab était mon intérêt pour le traitement linguistique pour les langages à faibles ressources », explique-t-elle. « Aujourd'hui, de nombreux modèles de langage sont fortement axés sur les données, et lorsqu'il n'est pas si facile d'acquérir toutes ces données, c'est à ce moment-là que vous devez utiliser efficacement les données limitées. »
La parole n’est qu’un flux d’ondes sonores, mais les humains en conversation peuvent facilement déterminer où commencent et où finissent les mots et les pensées. Dans le traitement de la parole, les humains et les modèles linguistiques utilisent leur vocabulaire existant pour reconnaître les limites des mots et en comprendre le sens. Dans les langues à ressources faibles ou inexistantes, il se peut qu'il n'existe pas de vocabulaire écrit du tout, de sorte que les chercheurs ne peuvent pas en fournir un au modèle. Au lieu de cela, le modèle peut noter quelles séquences sonores se produisent ensemble plus fréquemment que d’autres et en déduire qu’il peut s’agir de mots ou de concepts individuels. Dans le groupe de recherche de Gandhi, ces mots déduits sont ensuite rassemblés dans un pseudo-vocabulaire qui sert de méthode d'étiquetage pour le langage à faibles ressources, créant ainsi des données étiquetées pour d'autres applications.
Les applications de la technologie linguistique sont « à peu près partout », dit Gandhi. « On pourrait imaginer que les gens puissent interagir avec des logiciels et des appareils dans leur langue maternelle, leur dialecte natal. Vous pourriez imaginer améliorer tous les assistants vocaux que nous utilisons. On pourrait imaginer qu’il soit utilisé pour la traduction ou l’interprétation.