Demis Hassabis n’a jamais hésité à proclamer de grands progrès dans intelligence artificielle. Plus particulièrement, il est devenu célèbre en 2016 grâce à un robot appelé AlphaGo a appris à jouer au jeu de société complexe et subtil Go avec une habileté et une ingéniosité surhumaines.
Aujourd'hui, Hassabis affirme que son équipe chez Google a fait un grand pas en avant, pour lui, pour l'entreprise et, espérons-le, pour le domaine plus large de l'IA. Gemini, le modèle d'IA annoncé par Google aujourd'huidit-il, ouvre une voie inexplorée dans le domaine de l’IA qui pourrait conduire à de nouvelles avancées majeures.
« En tant que neuroscientifique et informaticien, je voulais depuis des années essayer de créer une sorte de nouvelle génération de modèles d'IA inspirés par la façon dont nous interagissons et comprenons le monde, à travers tous nos sens », a déclaré Hassabis. WIRED avant l'annonce d'aujourd'hui. Gemini est « un grand pas vers ce genre de modèle », dit-il. Google décrit Gemini comme « multimodal » car il peut traiter des informations sous forme de texte, d'audio, d'images et de vidéo.
Une première version de Gemini sera disponible dès aujourd'hui via le chatbot Bard de Google. La société affirme que la version la plus puissante du modèle, Gemini Ultra, sera publiée l'année prochaine et surpassera GPT-4, le modèle derrière ChatGPT, sur plusieurs benchmarks courants. Des vidéos publiées par Google montrent Gemini résolvant des tâches impliquant un raisonnement complexe, ainsi que des exemples de modèles combinant des informations provenant d'images textuelles, d'audio et de vidéo.
« Jusqu'à présent, la plupart des modèles se rapprochaient en quelque sorte de la multimodalité en formant des modules séparés, puis en les assemblant », explique Hassabis, dans ce qui semble être une référence voilée à la technologie OpenAI. « C'est acceptable pour certaines tâches, mais vous ne pouvez pas avoir ce genre de raisonnement complexe et profond dans un espace multimodal. »
OpenAI a lancé une mise à niveau vers ChatGPT en septembre qui a donné au chatbot la possibilité de prendre des images et du son en entrée en plus du texte. OpenAI n'a pas divulgué de détails techniques sur la façon dont GPT-4 effectue cela ni sur la base technique de ses capacités multimodales.
Jouer au rattrapage
Google a développé et lancé Gemini à une vitesse remarquable par rapport aux précédents projets d'IA de l'entreprise, motivé par les récentes inquiétudes concernant la menace que les développements d'OpenAI et d'autres pourraient représenter pour l'avenir de Google.
Fin 2022, Google était considéré comme le leader de l’IA parmi les grandes entreprises technologiques, avec de nombreux chercheurs en IA apportant des contributions majeures dans ce domaine. Le PDG Sundar Pichai avait déclaré sa stratégie pour l'entreprise comme étant «L'IA d'abord« , et Google a réussi à ajouter l'IA à plusieurs de ses produits, de la recherche aux smartphones.
Peu après ChatGPT a été lancé par OpenAI, une startup originale de moins de 800 collaborateurs, Google n'était plus considéré comme le premier en matière d'IA. La capacité de ChatGPT à répondre à toutes sortes de questions avec une intelligence qui pourrait sembler surhumaine a fait naître la perspective de voir le moteur de recherche prisé de Google être renversé, surtout lorsque Microsoft, un investisseur dans OpenAI, a poussé la technologie sous-jacente dans son propre moteur de recherche Bing.
Abasourdi par l'action, Google s'est précipité pour lancer Bardeun concurrent de ChatGPT, réorganisé son moteur de rechercheet s'est précipité sur un nouveau modèle, PaLM2, pour rivaliser avec celui derrière ChatGPT. Hassabis a été promu de la direction du laboratoire d'IA basé à Londres, créé lorsque Google a acquis sa startup DeepMind à la tête d'une nouvelle division IA combinant cette équipe avec le principal groupe de recherche sur l'IA de Google, Google Brain. En mai, lors de la conférence des développeurs de Google, I/O, Pichai a annoncé qu'il formait un nouveau successeur plus puissant de PaLM appelé Gemini. Il ne l'a pas dit à l'époque, mais le nom du projet a été nommé pour marquer le jumelage des deux principaux laboratoires d'IA de Google et en clin d'œil au projet Gemini de la NASA, qui a ouvert la voie aux alunissages d'Apollo.