Pulkit Agrawal, professeur adjoint au MIT qui travaille sur l'IA et la robotique, affirme que les dernières démos de Google et d'OpenAI sont impressionnantes et montrent à quelle vitesse les modèles d'IA multimodaux ont progressé. OpenAI a lancé GPT-4V, un système capable d'analyser des images en septembre 2023. Il a été impressionné par la capacité de Gemini à donner un sens à une vidéo en direct, par exemple en interprétant correctement les modifications apportées à un diagramme sur un tableau blanc en temps réel. La nouvelle version d'OpenAI de ChatGPT semble capable de faire de même.
Agrawal affirme que les assistants présentés par Google et OpenAI pourraient fournir de nouvelles données de formation aux entreprises à mesure que les utilisateurs interagissent avec les modèles dans le monde réel. « Mais il faut qu'ils soient utiles », ajoute-t-il. « La grande question est de savoir à quoi les gens vont les utiliser – ce n’est pas très clair. »
Google indique qu'Astra sera disponible via une nouvelle interface appelée Gemini Live plus tard cette année. Hassabis a déclaré que la société testait encore plusieurs prototypes de lunettes intelligentes et n'avait pas encore pris de décision quant à son lancement ou non.
Les capacités d'Astra pourraient fournir à Google une chance de redémarrer une version de son Verre malheureux lunettes intelligentes, bien que les efforts pour construire du matériel adapté à l'IA générative j'ai trébuché jusqu'à présent. Malgré les démonstrations impressionnantes d'OpenAI et de Google, les modaux multimodaux ne peuvent pas comprendre pleinement le monde physique et les objets qu'il contient, ce qui impose des limites à ce qu'ils pourront faire.
« Être capable de construire un modèle mental du monde physique qui vous entoure est absolument essentiel pour construire une intelligence plus humaine », déclare Lac Brendenprofesseur agrégé à l'Université de New York qui utilise l'IA pour explorer l'intelligence humaine.
Lake note que les meilleurs modèles d'IA d'aujourd'hui sont encore très centrés sur le langage, car la majeure partie de leur apprentissage provient de textes extraits de livres et du Web. Ceci est fondamentalement différent de la façon dont le langage est appris par les humains, qui l’apprennent en interagissant avec le monde physique. « C'est un recul par rapport au développement de l'enfant », dit-il à propos du processus de création de modèles multimodaux.
Hassabis estime qu’imprégner les modèles d’IA d’une compréhension plus approfondie du monde physique sera essentiel pour poursuivre les progrès de l’IA et rendre les systèmes comme Astra plus robustes. Autres frontières de l'IA, y compris celle de Google DeepMind travailler sur des programmes d'IA de jeu pourrait aider, dit-il. Hassabis et d'autres espèrent qu'un tel travail pourrait être révolutionnaire pour robotiqueun domaine dans lequel Google investit également.
« Un assistant agent universel multimodal est en quelque sorte sur la voie de l'intelligence artificielle générale », a déclaré Hassabis en référence à un futur espéré mais largement indéfini où les machines pourront faire tout et n'importe quoi qu'un esprit humain peut faire. « Ce n'est pas AGI ou quoi que ce soit, mais c'est le début de quelque chose. »