Recherche
Vers des systèmes d’IA plus multimodaux, robustes et généralistes
La semaine prochaine marque le début de la 37e conférence annuelle sur les systèmes de traitement de l'information neuronale (NeurIPS), la plus grande conférence sur l'intelligence artificielle (IA) au monde. NeurIPS 2023 aura lieu du 10 au 16 décembre à la Nouvelle-Orléans, aux États-Unis.
Les équipes de Google DeepMind présentent plus de 180 articles lors de la conférence principale et des ateliers.
Nous présenterons des démos de nos modèles d'IA de pointe pour prévisions météorologiques mondiales, découverte des matériauxet filigrane du contenu généré par l'IA. Il y aura également l'occasion d'entendre l'équipe derrière Gemini, notre mode IA le plus grand et le plus performantl.
Voici un aperçu de certains de nos faits saillants en matière de recherche :
Multimodalité : langage, vidéo, action
Les modèles d’IA générative peuvent créer des peintures, composer de la musique et écrire des histoires. Mais quelle que soit la capacité de ces modèles dans un média, la plupart ont du mal à transférer ces compétences sur un autre. Nous examinons comment les capacités génératives pourraient aider à apprendre dans toutes les modalités. Dans une présentation phare, nous montrons que les modèles de diffusion peuvent être utilisés pour classer les images sans aucune formation supplémentaire requise. Les modèles de diffusion comme Imagen classent les images d'une manière plus humaine que les autres modèles, en s'appuyant sur des formes plutôt que sur des textures. De plus, nous montrons à quel point prédire les légendes des images peut améliorer l'apprentissage par vision par ordinateur. Notre approche a surpassé les méthodes actuelles sur les tâches de vision et de langage, et a montré un plus grand potentiel d'évolutivité.
Des modèles plus multimodaux pourraient céder la place à des assistants numériques et robotiques plus utiles pour aider les gens dans leur vie quotidienne. Dans une affiche phare, nouscréer des agents capables d'interagir avec le monde numérique comme le font les humains – via des captures d'écran et des actions du clavier et de la souris. Séparément, nous montrons que par en tirant parti de la génération vidéo, y compris les sous-titres et les sous-titres codés, les modèles peuvent transférer des connaissances en prédisant des plans vidéo pour des actions réelles de robots.
L’une des prochaines étapes pourrait être de générer une expérience réaliste en réponse aux actions réalisées par les humains, les robots et d’autres types d’agents interactifs. Nous présenterons une démo de UniSim, notre simulateur universel d'interactions du monde réel. Ce type de technologie pourrait avoir des applications dans de nombreux secteurs, depuis les jeux vidéo et le cinéma jusqu'à la formation d'agents pour le monde réel.
Construire une IA sûre et compréhensible
Les grands modèles linguistiques peuvent générer des réponses impressionnantes, mais sont sujets aux « hallucinations », c'est-à-dire des textes qui semblent corrects mais qui sont inventés. Nos chercheurs se posent la question de savoir si une méthode permettant de retrouver un emplacement de stockage d'un fait (localisation) peut permettre de modifier le fait. Étonnamment, ils ont découvert quela localisation d'un fait et la modification de l'emplacement ne modifient pas le fait, faisant allusion à la complexité de la compréhension et du contrôle des informations stockées dans les LLM. Avec Tracr, nous proposons une nouvelle façon d'évaluer l'interprétabilité méthodes en traduisant des programmes lisibles par l’homme en modèles de transformateur. Nous avons open source une version de Tracr pour aider à servir de vérité terrain pour évaluer les méthodes d’interprétabilité.
Lors du développement et du déploiement de grands modèles, la confidentialité doit être intégrée à chaque étape du processus. Pour la formation, nos équipes étudient comment mesurer si les modèles de langage mémorisent des données – afin de protéger le matériel privé et sensible. En parallèle, nos chercheurs démontrent comment évaluer le respect de la vie privée s'entraîner avec une technique efficace suffisant pour une utilisation dans le monde réel. Dans une autre présentation orale, nos scientifiques étudient le limites de la formation à travers les modèles « étudiant » et « enseignant » qui ont différents niveaux d’accès et de vulnérabilité en cas d’attaque.
Capacités émergentes
À mesure que les grands modèles deviennent plus performants, nos recherches repoussent les limites de nouvelles capacités pour développer des systèmes d’IA plus généraux.
Bien que les modèles linguistiques soient utilisés pour des tâches générales, ils ne disposent pas de la compréhension exploratoire et contextuelle nécessaire pour résoudre des problèmes plus complexes. Nous introduisons le Tree of Thoughts, un nouveau cadre pour l'inférence de modèles de langage pour aider les modèles à explorer et à raisonner sur un large éventail de solutions possibles. En organisant le raisonnement et la planification sous forme d'arbre au lieu de la chaîne de pensée plate couramment utilisée, nous démontrons qu'un modèle de langage est capable de résoudre des tâches complexes comme le « jeu 24 » avec beaucoup plus de précision.
Pour aider les gens à résoudre des problèmes et à trouver ce qu’ils recherchent, les modèles d’IA doivent traiter efficacement des milliards de valeurs uniques. Avec Multiplexage de fonctionnalités, un seul espace de représentation est utilisé pour de nombreuses fonctionnalités différentespermettant aux grands modèles d'intégration (LEM) d'évoluer vers des produits destinés à des milliards d'utilisateurs.
Enfin, avec DoReMi, nous montrons comment utiliser l'IA pour automatiser le un mélange de types de données de formation peut accélérer considérablement la formation du modèle de langageet améliorer les performances sur des tâches nouvelles et invisibles.
Favoriser une communauté mondiale de l’IA
Nous sommes fiers de sponsoriser NeurIPS et de soutenir des ateliers animés par LatinX dans l'IA, QueerInAIet Les femmes dans le ML, contribuant à favoriser les collaborations en matière de recherche et à développer une communauté diversifiée d’IA et d’apprentissage automatique. Cette année, NeurIPS proposera une piste créative mettant en vedette nos Visualiser l'IA projet, qui demande à des artistes de créer des représentations plus diversifiées et accessibles de l’IA.
Si vous participez à NeurIPS, venez à notre stand pour en savoir plus sur nos recherches de pointe et rencontrer nos équipes qui organisent des ateliers et font des présentations tout au long de la conférence.