Après des semaines d'attentes et de spéculations, désormais, c'est officiel. Gemini, le grand modèle de langage (LLM) de Google, est lancé mercredi dernier. Le géant du Web prétend que cette innovation est le point de départ d'une nouvelle ère.
Un modèle multimodal dès sa création
Les Gémeaux se démarquent par sa nature révolutionnaire en tant que modèle d'intelligence artificielle générative multimodal dès sa création. Contrairement aux autres modèles concurrents axés principalement sur le texte, Google l'a doté dès le départ de capacités multiples.
Gemini représente un pas en avant significatif dans la manière dont l’IA peut contribuer à améliorer notre vie quotidienne. Bienvenue dans l'ère des Gémeaux → https://t.co/vmnUvVT2X7 pic.twitter.com/r6Q5Qq7wYH
-Google (@Google) 7 décembre 2023
Bien évidemment, Gemini de Google comprend le langage naturel et peut générer à la fois du texte et du code. Au-delà de ces compétences, il peut également comprendre et généré de l'image, de l'audio, et même de la vidéo. Plutôt que de suivre la voie de développement itératif avec l'ajout progressif de fonctionnalités comme l'ont fait les autres sociétés, Google a ainsi choisi de concevoir un système d'intelligence artificielle performant et polyvalent, doté dès sa conception de nombreuses capacités innovantes.
Lors de la présentation, Eli Collins, vice-président de DeepMind, la filiale IA du géant de Mountain View a montré une vidéo illustrant les performances de leur IA. Dans cette démonstration, un utilisateur a montré à Gemini des objets. L'IA a identifié instantanément les objets présentés et les a commentés à l'oral. Le système est également capable de jouer de la musique et il a répondu efficacement à des questions exigeant un certain niveau raisonnement.
Un rival de taille pour les LLM d'OpenAI et de Microsoft
Google avait déjà lancé Bard plus tôt cette année en réponse à ChatGPT. Ce chatbot a été développé avant celui d'OpenAI, mais la société a choisi de le garder confidentiel. Aujourd'hui, avec le lancement Gemini, le géant de l'informatique aspire à prendre la tête de la course effrénée de l'IA. Les capacités de raisonnement sophistiquées de ce système d'IA ainsi que sa compétence avancée en programmation devrait propulser Google en tête de la compétition, face à ses principaux concurrents que sont Microsoft et OpenAI.
Lors de la présentation, Eli Collins s'est montré confiant et élogieux envers ce dernier-né de Google. « C'est notre modèle d'IA le plus étendu, le plus doué, et aussi le plus polyvalent », at-il déclaré. La société n'a pas eu recours aux puces IA de la société californienne Nvidia pour entraîner ce LLM. Elle l'a formé avec ses propres processeurs Tensor Processing Units (TPU).
Une IA surpassant GPT-4
Sérums des Gémeaux disponible en trois versions : Nano, Pro et Ultra et son déploiement se fera progressivement par phases. La version Pro de Gemini est déjà intégrée à Bard. Des utilisateurs de plus d'une centaine de pays peuvent bénéficier de cette fonctionnalité. Cependant, il faudra encore patienter un peu avant que l’Europe puisse également profiter de cette avancée.
La version Ultra quant à elle est plus performante. Selon les résultats des tests, elle surpasse même GPT-4. En parallèle, Gemini Pro est annoncé comme étant plus performant que GPT-3.5. L'arrivée de Gemini Ultra est prévue pour le début de l'année 2024 et sera accessible via un abonnement mensuel de 20 dollars. Enfin, en ce qui concerne la version Nano, Google envisage de l'utiliser pour déployer de nouvelles fonctionnalités sur ses tous derniers smartphones haut de gamme.