Comprendre le monde physique est une compétence essentielle que la plupart des gens déploient sans effort. Cependant, cela pose toujours un défi à l’intelligence artificielle ; si nous voulons déployer des systèmes sûrs et utiles dans le monde réel, nous voulons que ces modèles partagent notre sens intuitif de la physique. Mais avant de pouvoir construire ces modèles, il y a un autre défi : comment allons-nous mesurer la capacité de ces modèles à comprendre le monde physique ? Autrement dit, que signifie comprendre le monde physique et comment pouvons-nous le quantifier ?
Heureusement pour nous, les psychologues du développement ont passé des décennies à étudier ce que les nourrissons savent du monde physique. Chemin faisant, ils ont transformé la notion nébuleuse de connaissance physique en un ensemble concret de concepts physiques. Et ils ont développé le paradigme de violation des attentes (VoE) pour tester ces concepts chez les nourrissons.
Dans notre article publié aujourd'hui dans Nature Human Behaviour, nous avons étendu leur travail et mis en open source le Ensemble de données sur les concepts physiques. Cet ensemble de données vidéo synthétiques utilise le paradigme VoE pour évaluer cinq concepts physiques : solidité, persistance des objets, continuité, « immuabilité » et inertie directionnelle.
Avec une référence en matière de connaissances physiques en main, nous nous sommes tournés vers la tâche de construire un modèle capable d’en apprendre davantage sur le monde physique. Encore une fois, nous nous sommes inspirés des psychologues du développement. Les chercheurs ont non seulement répertorié ce que les nourrissons savent du monde physique, mais ils ont également mis en avant les mécanismes qui pourraient permettre ce comportement. Malgré leur variabilité, ces récits jouent un rôle central dans la notion de fragmentation du monde physique en un ensemble de objets qui évoluent au fil du temps.
Inspirés par ces travaux, nous avons construit un système que nous surnommons PLATO (Physics Learning through Auto-encoding and Tracking Objects). PLATON représente et raisonne sur le monde comme un ensemble d'objets. Il fait des prédictions sur la position future des objets en fonction de leur emplacement passé et des autres objets avec lesquels ils interagissent.
Après avoir entraîné PLATO sur des vidéos d'interactions physiques simples, nous avons constaté que PLATO avait réussi les tests de notre ensemble de données Concepts physiques. De plus, nous avons formé des modèles « plats » qui étaient aussi grands (voire plus grands) que PLATO mais n'utilisaient pas de représentations basées sur des objets. Lorsque nous avons testé ces modèles, nous avons constaté qu’ils n’avaient pas réussi tous nos tests. Cela suggère que les objets sont utiles pour apprendre la physique intuitive, confortant les hypothèses de la littérature sur le développement.
Nous voulions également déterminer quelle quantité d’expérience était nécessaire pour développer cette capacité. Des preuves de connaissances physiques ont été démontrées chez des nourrissons dès l'âge de deux mois et demi. Comment PLATO se comporte-t-il en comparaison ? En faisant varier la quantité de données d'entraînement utilisées par PLATO, nous avons constaté que PLATO pouvait apprendre nos concepts physiques avec aussi peu que 28 heures d'expérience visuelle. La nature limitée et synthétique de notre ensemble de données signifie que nous ne pouvons pas faire de comparaison à l’identique entre la quantité d’expériences visuelles reçues par les nourrissons et PLATO. Cependant, ce résultat suggère que la physique intuitive peut être apprise avec relativement peu d’expérience si elle est soutenue par un biais inductif pour représenter le monde sous forme d’objets.
Enfin, nous avons voulu tester la capacité de PLATO à généraliser. Dans l'ensemble de données Physical Concepts, tous les objets de notre ensemble de test sont également présents dans l'ensemble d'entraînement. Et si nous testions PLATO avec des objets qu’il n’avait jamais vus auparavant ? Pour ce faire, nous avons exploité un sous-ensemble d'un autre synthétique base de données développé par des chercheurs du MIT. Cet ensemble de données sonde également les connaissances physiques, mais avec des apparences visuelles différentes et un ensemble d'objets que PLATO n'a jamais vu auparavant. PLATO a réussi, sans aucun recyclage, bien qu'il ait été testé sur des stimuli entièrement nouveaux.
Nous espérons que cet ensemble de données pourra fournir aux chercheurs une compréhension plus spécifique des capacités de leur modèle à comprendre le monde physique. À l’avenir, cela pourra être étendu pour tester davantage d’aspects de la physique intuitive en augmentant la liste des concepts physiques testés et en utilisant des stimuli visuels plus riches, notamment de nouvelles formes d’objets ou même des vidéos du monde réel.