Personne ne sait si l’intelligence artificielle sera une aubaine ou une malédiction dans un avenir lointain. Mais à l’heure actuelle, il existe un malaise et un mépris presque universels pour une habitude de ces chatbots et agents : les hallucinations, ces faits inventés qui apparaissent dans les résultats de grands modèles de langage comme ChatGPT. Au milieu de ce qui semble être une réponse soigneusement construite, le LLM glissera quelque chose qui semble raisonnable mais qui est une fabrication totale. Votre chatbot typique peut faire ressembler l'ancien membre du Congrès en disgrâce George Santos à Abe Lincoln. Puisqu’il semble inévitable que les chatbots génèrent un jour la grande majorité de toute la prose jamais écrite, toutes les sociétés d’IA sont obsédées par la minimisation et l’élimination des hallucinations, ou du moins par le fait de convaincre le monde que le problème est en cours.
De toute évidence, la valeur des LLM atteindra un nouveau niveau lorsque et si les hallucinations approcheront de zéro. Mais avant que cela n’arrive, je vous demande de porter un toast aux confabulations d’IA.
Les hallucinations me fascinent, même si les scientifiques en IA ont une assez bonne idée de la raison pour laquelle elles se produisent. Une startup d'IA appelée Vectara les a étudiés ainsi que leur prévalence, même compiler les taux d'hallucinations de différents modèles lorsqu'on lui demande de résumer un document. (Le GPT-4 d'OpenAI fait mieux, n'hallucinant qu'environ 3 % du temps ; le Palm Chat de Google, désormais obsolète, et non son chatbot Bard !, avait un taux choquant de 27 %, même si, pour être honnête, la synthèse de documents n'était pas dans la timonerie de Palm Chat. .) Le CTO de Vectara, Amin Ahmad, affirme que les LLM créent une représentation compressée de toutes les données d'entraînement alimentées par ses neurones artificiels. « La nature de la compression fait que les moindres détails peuvent être perdus », explique-t-il. Un modèle finit par fournir les réponses les plus probables aux requêtes des utilisateurs, mais ne dispose pas des faits exacts. « Quand on arrive aux détails, on commence à inventer des choses », dit-il.
Santosh Vempala, professeur d'informatique à Georgia Tech, a également étudié les hallucinations. « Un modèle linguistique n’est qu’un modèle probabiliste du monde », dit-il, et non un miroir fidèle de la réalité. Vempala explique que la réponse d'un LLM s'efforce d'obtenir un calibrage général avec le monde réel, tel que représenté dans ses données de formation, qui est « une version faible de la précision ». Ses recherchespublié avec Adam Kalai d'OpenAI, a découvert que les hallucinations sont inévitables pour les faits qui ne peuvent pas être vérifiés à l'aide des informations contenues dans les données d'entraînement d'un modèle.
C’est la science/mathématiques des hallucinations de l’IA, mais elles se distinguent également par l’expérience qu’elles peuvent susciter chez les humains. Parfois, ces fabrications génératives peuvent sembler plus plausibles que les faits réels, qui sont souvent étonnamment bizarres et insatisfaisants. Combien de fois entendez-vous quelque chose être décrit comme si étrange qu’aucun scénariste n’oserait l’écrire dans un film ? Ces jours-ci, tout le temps ! Les hallucinations peuvent nous séduire en semblant nous ancrer dans un monde moins choquant que celui dans lequel nous vivons. De plus, je trouve révélateur de noter quels détails les robots ont tendance à concocter. Dans leur tentative désespérée de combler les lacunes d’un récit satisfaisant, ils se tournent vers la version statistiquement la plus probable de la réalité telle que représentée dans leurs données de formation à l’échelle Internet, qui peut être une vérité en soi. Je le compare à un écrivain de fiction écrivant un roman inspiré d'événements réels. Un bon auteur s'éloignera de ce qui s'est réellement passé pour se tourner vers un scénario imaginé qui révèle une vérité plus profonde, s'efforçant de créer quelque chose. plus réel que la réalité.
Lorsque j'ai demandé à ChatGPT de rédiger une nécrologie pour moi (admettez-le, vous avez également essayé cela), beaucoup de choses étaient bonnes, mais quelques erreurs. Cela m'a donné des petits-enfants que je n'avais pas, m'a accordé une date de naissance antérieure et a ajouté un National Magazine Award à mon CV pour des articles que je n'avais pas écrits sur la faillite de la bulle Internet à la fin des années 1990. Dans l'évaluation de ma vie par le LLM, c'est quelque chose qui devrait se sont produits sur la base des faits de ma carrière. Je suis d'accord! C'est uniquement à cause des imperfections de la vie réelle que l'American Society of Magazine Editors n'a pas réussi à m'attribuer la sculpture d'éléphant en métal qui accompagne cet honneur. Après presque 50 ans d'écriture dans des magazines, c'est leur faute, pas moi ! C'est presque comme si ChatGPT avait réalisé un sondage auprès des multivers possibles et découvert que dans la plupart d'entre eux j'avais un prix Ellie. Bien sûr, j'aurais préféré que, ici, dans mon propre coin du multivers, des juges humains m'appellent à la tribune. Mais la reconnaissance d’un réseau neuronal artificiel vamping est mieux que rien.