Nouvelle référence pour l'évaluation des systèmes multimodaux basés sur des données vidéo, audio et textuelles du monde réel
Du Test de Turing à ImageNet, les benchmarks ont joué un rôle déterminant dans l’élaboration de l’intelligence artificielle (IA) en aidant à définir les objectifs de recherche et en permettant aux chercheurs de mesurer les progrès vers ces objectifs. Des percées incroyables au cours des 10 dernières années, comme AlexNet en vision par ordinateur et AlphaFold dans le repliement des protéines, ont été étroitement liés à l'utilisation d'ensembles de données de référence, permettant aux chercheurs de classer la conception des modèles et les choix de formation, et d'itérer pour améliorer leurs modèles. Alors que nous travaillons à l’objectif de développer l’intelligence artificielle générale (AGI), le développement de références robustes et efficaces qui élargissent les capacités des modèles d’IA est aussi important que le développement des modèles eux-mêmes.
La perception – le processus d’expérience du monde à travers les sens – est une partie importante de l’intelligence. Et construire des agents dotés d’une compréhension perceptive du monde au niveau humain est une tâche centrale mais difficile, qui devient de plus en plus importante dans la robotique, les voitures autonomes, les assistants personnels, l’imagerie médicale, etc. Alors aujourd'hui, nous vous présentons le Test de perceptionun benchmark multimodal utilisant des vidéos du monde réel pour aider à évaluer les capacités de perception d'un modèle.
Développer un référentiel de perception
De nombreux critères liés à la perception sont actuellement utilisés dans la recherche sur l'IA, comme Cinétique pour la reconnaissance d'actions vidéo, Ensemble audio pour la classification des événements audio, CT pour le suivi d'objets, ou VQA pour la réponse aux questions d'image. Ces benchmarks ont conduit à des progrès étonnants dans la façon dont les architectures de modèles d'IA et les méthodes de formation sont construites et développées, mais chacun ne cible que des aspects restreints de la perception : les benchmarks d'images excluent les aspects temporels ; la réponse visuelle aux questions a tendance à se concentrer sur la compréhension de la scène sémantique de haut niveau ; les tâches de suivi d'objets capturent généralement l'apparence de niveau inférieur d'objets individuels, comme la couleur ou la texture. Et très peu de benchmarks définissent les tâches selon des modalités à la fois audio et visuelles.
Modèles multimodaux, tels que Percepteur, Flamantou BEiT-3, visent à être des modèles de perception plus généraux. Mais leurs évaluations étaient basées sur plusieurs ensembles de données spécialisées, car aucun référentiel dédié n'était disponible. Ce processus est lent, coûteux et fournit une couverture incomplète des capacités de perception générales comme la mémoire, ce qui rend difficile pour les chercheurs de comparer les méthodes.
Pour résoudre bon nombre de ces problèmes, nous avons créé un ensemble de données de vidéos spécialement conçues d'activités du monde réel, étiquetées selon six types de tâches différents :
- Suivi d'objet : un cadre est prévu autour d'un objet au début de la vidéo, le modèle doit restituer une piste complète tout au long de la vidéo (y compris via les occlusions).
- Suivi des points : un point est sélectionné au début de la vidéo, le modèle doit suivre le point tout au long de la vidéo (également via des occlusions).
- Localisation d'actions temporelles : le modèle doit localiser et classer temporellement un ensemble prédéfini d'actions.
- Localisation temporelle du son : le modèle doit localiser et classer temporellement un ensemble prédéfini de sons.
- Questions-réponses vidéo à choix multiples : des questions textuelles sur la vidéo, chacune avec trois choix parmi lesquels sélectionner la réponse.
- Questions-réponses vidéo fondées : questions textuelles sur la vidéo, le modèle doit renvoyer une ou plusieurs pistes d'objet.
Nous nous sommes inspirés de la manière dont la perception des enfants est évaluée en psychologie du développement, ainsi que d'ensembles de données synthétiques comme RESTAURATION et CLÉVRER, et conçu 37 scripts vidéo, chacun avec des variations différentes pour garantir un ensemble de données équilibré. Chaque variation a été filmée par au moins une douzaine de participants issus du crowdsourcing (similaire aux travaux précédents sur Charades et Quelque chose quelque chose), avec un total de plus de 100 participants, ce qui a donné lieu à 11 609 vidéos d'une durée moyenne de 23 secondes.
Les vidéos montrent des jeux simples ou des activités quotidiennes, qui nous permettraient de définir des tâches qui nécessitent les compétences suivantes pour être résolues :
- Connaissance de la sémantique : tester des aspects tels que l’achèvement des tâches, la reconnaissance d’objets, d’actions ou de sons.
- Compréhension de la physique : collisions, mouvements, occlusions, relations spatiales.
- Raisonnement temporel ou mémoire : ordonnancement temporel des événements, comptage dans le temps, détection des changements dans une scène.
- Capacités d'abstraction : correspondance de forme, notions identiques/différentes, détection de motifs.
Les participants issus du crowdsourcing ont étiqueté les vidéos avec des annotations spatiales et temporelles (pistes de cadre de délimitation d'objets, pistes de points, segments d'action, segments sonores). Notre équipe de recherche a conçu les questions par type de script pour les tâches de réponse aux questions vidéo à choix multiples et fondées afin de garantir une bonne diversité de compétences testées, par exemple des questions qui sondent la capacité à raisonner de manière contrefactuelle ou à fournir des explications pour une situation donnée. Les réponses correspondantes pour chaque vidéo ont été à nouveau fournies par des participants issus du crowdsourcing.
Évaluation des systèmes multimodaux avec le test de perception
Nous supposons que les modèles ont été pré-entraînés sur des ensembles de données et des tâches externes. Le test de perception comprend un petit ensemble de réglages fins (20 %) que les créateurs de modèles peuvent éventuellement utiliser pour transmettre la nature des tâches aux modèles. Les données restantes (80 %) consistent en une répartition de validation publique et une répartition de test retenue où les performances ne peuvent être évaluées que via notre serveur d'évaluation.
Nous montrons ici un diagramme de la configuration d'évaluation : les entrées sont une séquence vidéo et audio, plus une spécification de tâche. La tâche peut se présenter sous forme de texte de haut niveau pour une réponse visuelle aux questions ou une saisie de bas niveau, comme les coordonnées du cadre de délimitation d'un objet pour la tâche de suivi d'objet.
Les résultats de l'évaluation sont détaillés sur plusieurs dimensions et nous mesurons les capacités dans les six tâches informatiques. Pour les tâches de réponse visuelle aux questions, nous fournissons également une cartographie des questions selon les types de situations présentées dans les vidéos et les types de raisonnement requis pour répondre aux questions pour une analyse plus détaillée (voir notre papier pour plus de détails). Un modèle idéal maximiserait les scores sur tous les tracés radar et toutes les dimensions. Il s'agit d'une évaluation détaillée des compétences d'un modèle, nous permettant de préciser les domaines d'amélioration.
Garantir la diversité des participants et des scènes montrées dans les vidéos était une considération essentielle lors de l’élaboration de la référence. Pour ce faire, nous avons sélectionné des participants de différents pays, d'origines ethniques et de sexes différents, et avons cherché à avoir une représentation diversifiée dans chaque type de scénario vidéo.
En savoir plus sur le test de perception
Le benchmark du test de perception est accessible au public ici et de plus amples détails sont disponibles dans notre papier. Un classement et un serveur de défi seront également bientôt disponibles.
Le 23 octobre 2022, nous organisons une atelier sur les modèles de perception générale à la Conférence européenne sur la vision par ordinateur à Tel Aviv (ECVC 2022), où nous discuterons de notre approche et de la manière de concevoir et d'évaluer des modèles de perception générale avec d'autres experts de premier plan dans le domaine.
Nous espérons que le test de perception inspirera et guidera de nouvelles recherches vers des modèles de perception généraux. À l’avenir, nous espérons collaborer avec la communauté de recherche multimodale pour introduire des annotations, des tâches, des mesures ou même de nouveaux langages supplémentaires dans le benchmark.
Prenez contact par email perception-test@google.com si vous êtes intéressé à contribuer !