L'histoire de L’intelligence artificielle a été ponctuée par des périodes dites « d’hiver de l’IA », au cours desquelles la technologie semblait se trouver dans une impasse et les financements se tarir. Chacune d’elles a été accompagnée de proclamations selon lesquelles rendre les machines vraiment intelligentes est tout simplement trop difficile à comprendre pour les humains.
Google sortie des Gémeaux, présenté comme un type de modèle d'IA fondamentalement nouveau et le plus puissant de l'entreprise à ce jour, suggère qu'un nouvel hiver de l'IA n'arrivera pas de sitôt. En fait, même si les 12 mois écoulés depuis ChatGPT Les lancements ont été une année record pour l’IA, il y a de bonnes raisons de penser que le boom actuel de l’IA ne fait que commencer.
OpenAI n'avait pas de grandes attentes lorsqu'il a lancé le « aperçu de recherche discret » appelé ChatGPT en novembre 2022. Il s'agissait simplement d'un test d'une nouvelle interface pour ses grands modèles de langage (LLM) générateurs de texte. Mais la capacité du chatbot à faire un si large éventail de choses, de la synthèse d'essais et de poésie à la résolution de problèmes de codage, a impressionné et énervé de nombreuses personnes et a enflammé l'industrie technologique. Quand OpenAI a ajouté son nouveau GPT-4 LLM à ChatGPT, certains experts étaient tellement paniqués qu'ils a supplié l'entreprise de ralentir.
Il y avait déjà peu de preuves que quiconque ait tenu compte de ce cri d’alarme. Il est inconcevable maintenant que Google ait augmenté la mise – et peut-être aussi changé les règles du jeu – en annonçant Gemini.
Google avait déjà répondu directement à ChatGPT sous la forme de Barde plus tôt cette année, lançant enfin la technologie de chatbot LLM qu'elle avait développée plus tôt qu'OpenAI mais qu'elle avait choisi de garder privée. Avec Gemini, il prétend avoir ouvert une nouvelle ère qui va au-delà des LLM principalement ancrés dans le texte, ouvrant potentiellement la voie à une nouvelle série de produits d'IA très différents de ceux activés par ChatGPT.
Google qualifie Gemini de modèle « nativement multimodal », ce qui signifie qu'il peut apprendre à partir de données au-delà du simple texte, en absorbant également des informations à partir de l'audio, de la vidéo et des images. ChatGPT montre comment les modèles d'IA peuvent en apprendre énormément sur le monde s'ils reçoivent suffisamment de texte. Et certains chercheurs en IA ont soutenu que simplement agrandir les modèles de langage augmenteraient leurs capacités au point de rivaliser avec celles des humains.
Mais il n'y a pas beaucoup de choses que l'on peut apprendre sur la réalité physique à travers le filtre des textes que les humains ont écrits à son sujet, et les limitations difficiles à éradiquer des LLM comme GPT-4, telles que les informations hallucinantes, un mauvais raisonnement et leur étrange sécurité. défauts – semblent suggérer que la mise à l’échelle de la technologie existante a ses limites.