Les voituriers virtuels les plus célèbres du moment :Siri, Alexa, et Google Assistant, sont beaucoup moins impressionnants que les derniers chatbots basés sur l'IA comme ChatGPT ou Google Bard. Lorsque les fruits du récent boom de l’IA générative seront correctement intégrés dans ces anciens robots assistants, ils deviendront sûrement beaucoup plus intéressants.
Pour avoir un aperçu de la suite, j'ai utilisé un assistant vocal expérimental d'IA appelé vimGPT pour un essai. Lorsque je lui ai demandé de « s'abonner à WIRED », il s'est mis à travailler avec une compétence impressionnante, trouvant la bonne page Web et accédant au formulaire en ligne. S'il avait eu accès aux détails de ma carte de crédit, je suis presque sûr qu'il l'aurait compris.
Bien qu’il ne s’agisse pas d’un test d’intelligence pour un humain, acheter quelque chose en ligne sur le Web ouvert est beaucoup plus compliqué et difficile que les tâches généralement gérées par Siri, Alexa ou l’Assistant Google. (Définir des rappels et obtenir des résultats sportifs sont donc 2010.) Cela nécessite de donner un sens à la demande, d'accéder au Web pour trouver le bon site, puis d'interagir correctement avec la page ou les formulaires concernés. Mon assistant a correctement navigué vers la page d'abonnement de WIRED et y a même trouvé le formulaire – probablement impressionné par la perspective de recevoir tout le journalisme divertissant et perspicace de WIRED pour seulement 1 $ par mois – mais a échoué au dernier obstacle parce qu'il lui manquait une carte de crédit. VimGPT utilise le navigateur open source Chromium de Google qui ne stocke pas les informations des utilisateurs. Mes autres expériences ont montré que l'agent est cependant très doué pour rechercher des vidéos amusantes de chats ou trouver des vols pas chers.
VimGPT est un programme open source expérimental construit par Ishan Shah, un développeur solitaire, et non un produit en développement, mais vous pouvez parier qu'Apple, Google et d'autres font des expériences similaires en vue de mettre à niveau Siri et d'autres assistants. VimGPT est construit sur GPT-4V, la version multimodale du célèbre modèle de langage d'OpenAI. En analysant une requête, il peut déterminer sur quoi cliquer ou taper de manière plus fiable que ne le peuvent les logiciels textuels, qui doivent tenter de donner un sens au Web en démêlant le HTML désordonné. « Dans un an, je m'attendrais à ce que l'expérience d'utilisation d'un ordinateur soit très différente », déclare Shah, qui affirme avoir créé vimGPT en quelques jours seulement. « La plupart des applications nécessiteront moins de clics et davantage de discussions, les agents devenant partie intégrante de la navigation sur le Web. »
Shah n'est pas la seule personne à croire que la prochaine étape logique après les chatbots comme ChatGPT est celle des agents qui utilisent des ordinateurs et parcourent le Web. Rouslan Salakhutdinov, professeur à l'Université Carnegie Mellon qui a été directeur de la recherche sur l'IA chez Apple de 2016 à 2020, estime que Siri et d'autres assistants sont en ligne pour une toute-puissante mise à niveau de l'IA. « La prochaine évolution sera celle des agents capables d'accomplir des tâches utiles », déclare Salakhutdinov. Connecter Siri à l'IA comme celle qui alimente ChatGPT serait utile, dit-il, « mais cela aura beaucoup plus d'impact si je demande à Siri de faire des choses, et cela résoudra simplement mes problèmes pour moi. »
Salakhutdinov et ses étudiants a développé plusieurs environnements simulés conçus pour tester et perfectionner les compétences des assistants IA capables de faire avancer les choses. Ils comprennent un site Web de commerce électronique factice, une version simulée d'un forum de discussion de type Reddit et un site Web de petites annonces. Ce terrain d'essai virtuel pour mettre les agents à l'épreuve s'appelle VisualWebArena.