Un aspect clé de l’intelligence est la capacité d’apprendre rapidement comment effectuer une nouvelle tâche lorsqu’on lui donne une brève instruction. Par exemple, un enfant peut reconnaître de vrais animaux au zoo après avoir vu quelques photos d'animaux dans un livre, malgré les différences entre les deux. Mais pour qu’un modèle visuel typique apprenne une nouvelle tâche, il doit être formé sur des dizaines de milliers d’exemples spécifiquement étiquetés pour cette tâche. Si le but est de compter et d'identifier les animaux dans une image, comme dans « trois zèbres », il faudrait collecter des milliers d'images et annoter chaque image avec leur quantité et leur espèce. Ce processus est inefficace, coûteux et gourmand en ressources, nécessitant de grandes quantités de données annotées et la nécessité de former un nouveau modèle à chaque fois qu'il est confronté à une nouvelle tâche. Dans le cadre de la mission de DeepMind visant à résoudre les problèmes d'intelligence, nous avons exploré si un modèle alternatif pourrait rendre ce processus plus facile et plus efficace, avec seulement des informations limitées spécifiques à une tâche.
Aujourd'hui, dans la prépublication de notre papiernous introduisons Flamant, un modèle de langage visuel unique (VLM) qui établit un nouvel état de l'art en matière d'apprentissage en quelques étapes sur un large éventail de tâches multimodales ouvertes. Cela signifie que Flamingo peut résoudre un certain nombre de problèmes difficiles avec seulement une poignée d'exemples spécifiques à une tâche (en « quelques plans »), sans aucune formation supplémentaire requise. L'interface simple de Flamingo rend cela possible, en prenant en entrée une invite composée d'images, de vidéos et de texte entrelacés, puis en sortant la langue associée.
Semblable au comportement de grands modèles de langage (LLM), qui peuvent résoudre une tâche linguistique en traitant des exemples de la tâche dans leur invite de texte, l'interface visuelle et textuelle de Flamingo peut orienter le modèle vers la résolution d'une tâche multimodale. À partir de quelques exemples de paires d'entrées visuelles et de réponses textuelles attendues composées dans l'invite de Flamingo, le modèle peut se voir poser une question avec une nouvelle image ou vidéo, puis générer une réponse.
Sur les 16 tâches que nous avons étudiées, Flamingo bat toutes les approches précédentes d'apprentissage en quelques étapes lorsqu'on lui donne seulement quatre exemples par tâche. Dans plusieurs cas, le même modèle Flamingo surpasse les méthodes affinées et optimisées pour chaque tâche indépendamment et utilise plusieurs ordres de grandeur de données plus spécifiques à la tâche. Cela devrait permettre aux personnes non expertes d’utiliser rapidement et facilement des modèles de langage visuel précis sur de nouvelles tâches à accomplir.
En pratique, Flamingo fusionne de grands modèles de langage avec des représentations visuelles puissantes – chacune pré-entraînée et figée séparément – en ajoutant de nouveaux composants architecturaux entre les deux. Il est ensuite formé sur un mélange de données multimodales complémentaires à grande échelle provenant uniquement du web, sans utiliser de données annotées à des fins de machine learning. En suivant cette méthode, nous partons de Chinchilla, notre modèle de langage de paramètres 70B optimisé pour le calcul récemment introduit, pour entraîner notre modèle Flamingo final, un VLM à paramètres 80B. Une fois cette formation terminée, Flamingo peut être directement adapté aux tâches de vision via un simple apprentissage en quelques étapes sans aucun réglage supplémentaire spécifique à la tâche.
Nous avons également testé les capacités qualitatives du modèle au-delà de nos références actuelles. Dans le cadre de ce processus, nous avons comparé les performances de notre modèle lors du sous-titrage d'images liées au sexe et à la couleur de la peau, et avons exécuté les légendes générées par notre modèle via l'API Perspective de Google, qui évalue la toxicité du texte. Même si les premiers résultats sont positifs, davantage de recherches visant à évaluer les risques éthiques dans les systèmes multimodaux sont cruciales et nous invitons les gens à évaluer et à considérer ces questions attentivement avant d'envisager de déployer de tels systèmes dans le monde réel.
Les capacités multimodales sont essentielles pour les applications importantes de l'IA, telles que aider les malvoyants avec des défis visuels quotidiens ou améliorer l’identification des contenus haineux sur le Web. Flamingo permet de s'adapter efficacement à ces exemples et à d'autres tâches à la volée sans modifier le modèle. Il est intéressant de noter que le modèle démontre des capacités de dialogue multimodal prêtes à l’emploi, comme on le voit ici.
Flamingo est une famille de modèles à usage général efficaces et efficients qui peuvent être appliqués aux tâches de compréhension d'images et de vidéos avec un minimum d'exemples spécifiques à des tâches. Des modèles comme Flamingo sont très prometteurs et bénéficieront à la société de manière pratique et nous continuons d'améliorer leur flexibilité et leurs capacités afin qu'ils puissent être déployés en toute sécurité pour le bénéfice de tous. Les capacités de Flamingo ouvrent la voie à des interactions riches avec des modèles de langage visuel appris qui peuvent permettre une meilleure interprétabilité et de nouvelles applications passionnantes, comme un assistant visuel qui aide les gens dans la vie quotidienne – et nous sommes ravis des résultats obtenus jusqu'à présent.