La version originale de cette histoire apparaît dans Magazine Quanta.
Une équipe d'informaticiens a créé un type plus agile et plus flexible du modèle d’apprentissage automatique. L’astuce : il doit périodiquement oublier ce qu’il sait. Et même si cette nouvelle approche ne remplacera pas les énormes modèles qui sous-tendent les plus grandes applications, elle pourrait en révéler davantage sur la manière dont ces programmes comprennent le langage.
La nouvelle recherche marque « une avancée significative dans le domaine », a déclaré Jea Kwoningénieur en IA à l'Institut des sciences fondamentales en Corée du Sud.
Les moteurs de langage d'IA utilisés aujourd'hui sont principalement alimentés par réseaux de neurones artificiels. Chaque « neurone » du réseau est une fonction mathématique qui reçoit des signaux d'autres neurones similaires, effectue des calculs et envoie des signaux à travers plusieurs couches de neurones. Au départ, le flux d'informations est plus ou moins aléatoire, mais grâce à l'entraînement, le flux d'informations entre les neurones s'améliore à mesure que le réseau s'adapte aux données d'entraînement. Si un chercheur en IA souhaite créer un modèle bilingue, par exemple, il entraînerait le modèle avec une grande pile de textes des deux langues, ce qui ajusterait les connexions entre les neurones de manière à relier le texte dans une langue avec des textes équivalents. mots dans l'autre.
Mais ce processus de formation nécessite beaucoup de puissance de calcul. Si le modèle ne fonctionne pas très bien ou si les besoins de l'utilisateur évoluent par la suite, il est difficile de l'adapter. « Disons que vous disposez d'un modèle comportant 100 langues, mais imaginez qu'une langue souhaitée n'est pas couverte », a déclaré Mikel Artetxe, co-auteur de la nouvelle recherche et fondateur de la startup d'IA Reka. « On pourrait repartir de zéro, mais ce n'est pas l'idéal. »
Artetxe et ses collègues ont tenté de contourner ces limitations. Il y a quelques années, Artetxe et d’autres ont formé un réseau neuronal dans une langue, puis ont effacé ce qu’il savait des éléments constitutifs des mots, appelés jetons. Ceux-ci sont stockés dans la première couche du réseau neuronal, appelée couche d’intégration. Ils ont laissé toutes les autres couches du modèle seules. Après avoir effacé les jetons de la première langue, ils ont recyclé le modèle sur la deuxième langue, ce qui a rempli la couche d'intégration avec de nouveaux jetons de cette langue.
Même si le modèle contenait des informations incompatibles, le recyclage a fonctionné : le modèle a pu apprendre et traiter le nouveau langage. Les chercheurs ont supposé que si la couche d'intégration stockait des informations spécifiques aux mots utilisés dans la langue, les niveaux plus profonds du réseau stockaient des informations plus abstraites sur les concepts derrière les langues humaines, ce qui aidait ensuite le modèle à apprendre la deuxième langue.
« Nous vivons dans le même monde. Nous conceptualisons les mêmes choses avec des mots différents » dans différentes langues, a déclaré Yi Hong Chen, l'auteur principal de l'article récent. « C'est pourquoi vous avez ce même raisonnement de haut niveau dans le modèle. Une pomme est quelque chose de sucré et juteux, pas seulement un mot.