L'alphabet Modèle d'IA Gémeaux est public depuis seulement deux mois, mais la société publie déjà une mise à niveau. Gemini Pro 1.5, lancé aujourd'hui avec une disponibilité limitée, est plus puissant que son prédécesseur et peut gérer d'énormes quantités d'entrées de texte, vidéo ou audio à la fois.
Demis Hassabis, PDG de Google DeepMind, qui a développé le nouveau modèle, compare sa grande capacité d'entrée à la mémoire de travail d'une personne, quelque chose qu'il a exploré il y a des années en tant que neuroscientifique. « L’avantage de ces capacités de base est qu’elles débloquent des choses auxiliaires que le modèle peut faire », dit-il.
Dans une démo, Google DeepMind a montré Gemini Pro 1.5 analysant un PDF de 402 pages de la transcription des communications d'Apollo 11. Le modèle a été invité à trouver des passages humoristiques et a mis en évidence plusieurs moments, comme lorsque les astronautes ont déclaré qu'un retard de communication était dû à une pause sandwich. Une autre démo montrait le modèle répondant à des questions sur des actions spécifiques dans un film de Buster Keaton. La version précédente de Gemini n'aurait pu répondre à ces questions que pour des quantités de texte ou de vidéo beaucoup plus courtes. Google espère que les nouvelles fonctionnalités permettront aux développeurs de créer de nouveaux types d'applications sur le modèle.
« C'est vraiment magique de voir comment le modèle effectue ce type de raisonnement sur chaque page, chaque mot », déclare Oriol Vinyals, chercheur scientifique chez Google DeepMind.
Google affirme que Gemini Pro 1.5 peut ingérer et donner un sens à une heure de vidéo, 11 heures d'audio, 700 000 mots ou 30 000 lignes de code à la fois, soit plusieurs fois plus que les autres modèles d'IA, notamment GPT-4 d'OpenAIqui alimente ChatGPT. La société n’a pas divulgué les détails techniques de cet exploit. Hassabis dit qu'une utilisation des modèles capables de gérer de grandes quantités de texte, testés par des chercheurs de Google DeepMind, consiste à identifier les points importants à retenir dans les discussions Discord avec des milliers de messages.
Gemini Pro 1.5 est également plus performant, du moins pour sa taille, comme le mesure le score du modèle sur plusieurs benchmarks populaires. Le nouveau modèle exploite une technique précédemment inventée par les chercheurs de Google pour obtenir davantage de performances sans nécessiter plus de puissance de calcul. La technique, appelée mélange d'experts, active sélectivement les parties de l'architecture d'un modèle les mieux adaptées à la résolution d'une tâche donnée, ce qui rend la formation et l'exécution plus efficaces.
Google affirme que Gemini Pro 1.5 est aussi performant que son offre la plus puissante, Gemini Ultra, dans de nombreuses tâches, bien qu'il s'agisse d'un modèle nettement plus petit. Hassabis dit qu'il n'y a aucune raison pour que la même technique utilisée pour améliorer Gemini Pro ne puisse pas être appliquée pour booster Gemini Ultra.
La version mise à niveau de Gemini Pro sera mise à la disposition des développeurs via AI Studio, un bac à sable permettant de tester les capacités des modèles, et à un nombre limité de développeurs via l'API de la plateforme cloud Vertex AI de Google. Il n'y a pas encore de date pour une sortie générale.
Google lance également de nouveaux outils pour aider les développeurs à utiliser Gemini dans leurs applications, notamment de nouvelles façons d'exploiter la capacité des modèles à analyser la vidéo et l'audio. La société a également annoncé qu'elle ajoutait de nouvelles fonctionnalités basées sur Gemini à son outil de codage Web, Project IDX, notamment des moyens permettant à l'IA de déboguer et de tester le code.
La rapidité de la mise à niveau de Gemini est le signe d'une course furieuse à l'IA lancée par le succès de ChatGPT. Plus tôt cette semaine, OpenAI a annoncé qu'il était donner à ChatGPT la capacité de se souvenir informations utiles issues de conversations sur de longues périodes. La semaine dernière, Google a rebaptisé son chatbot Bard et a annoncé que Gemini Ultra serait disponible avec un abonnement payant.
Le rythme frénétique des progrès de l’IA générative est en contradiction avec les inquiétudes quant aux risques que cette technologie pourrait poser. Google affirme avoir soumis Gemini Pro 1.5 à des tests approfondis et que fournir un accès limité offre un moyen de recueillir des commentaires sur les risques potentiels. La société affirme avoir également fourni aux chercheurs de l'AI Safety Institute du Royaume-Uni un accès à ses modèles les plus puissants afin qu'ils puissent les tester.
Hassabis dit s'attendre à davantage de progrès dans les mois à venir. « C'est une nouvelle cadence », dit-il, « j'essaie de m'inspirer d'une sorte de mentalité de startup ».