Recherche
Restaurer, placer et dater des textes anciens grâce à la collaboration entre l'IA et les historiens
La naissance de l'écriture humaine a marqué l'aube de Histoire et est crucial pour notre compréhension des civilisations passées et du monde dans lequel nous vivons aujourd’hui. Par exemple, il y a plus de 2 500 ans, les Grecs ont commencé à écrire sur la pierre, la poterie et le métal pour tout documenter, des baux et lois aux calendriers et oracles, donnant ainsi un aperçu détaillé de la région méditerranéenne. Malheureusement, c'est un dossier incomplet. De nombreuses inscriptions survivantes ont été endommagées au fil des siècles ou déplacées de leur emplacement d'origine. De plus, les techniques modernes de datation, telles que datation au radiocarbonene peut pas être utilisé sur ces matériaux, ce qui rend les inscriptions difficiles et longues à interpréter.
Conformément à La mission de DeepMind de résoudre l'intelligence pour faire progresser la science et l'humanité, nous avons collaboré avec le Département des Sciences Humaines de l'Université Ca' Foscari de Venisele Faculté des lettres classiques de l'Université d'Oxfordet le Département d'informatique de l'Université d'économie et de commerce d'Athènes explorer comment l’apprentissage automatique peut aider les historiens à mieux interpréter ces inscriptions – donnant ainsi une compréhension plus riche de l’histoire ancienne et libérant le potentiel de coopération entre l’IA et les historiens.
Dans un papier publié aujourd'hui dans Nature, nous présentons conjointement Ithaca, le premier réseau neuronal profond capable de restaurer le texte manquant des inscriptions endommagées, d'identifier leur emplacement d'origine et d'aider à établir la date à laquelle elles ont été créées. Ithaque doit son nom à l'île grecque de celui d'Homère Odyssée et s'appuie sur et étend Pythie, notre système précédent axé sur la restauration textuelle. Nos évaluations montrent qu'Ithaca atteint une précision de 62 % dans la restauration des textes endommagés, une précision de 71 % dans l'identification de leur emplacement d'origine et peut dater les textes dans les 30 ans suivant leurs plages de dates de vérité sur le terrain. Les historiens ont déjà utilisé cet outil pour réévaluer des périodes importantes de l’histoire grecque.
Pour rendre nos recherches largement accessibles aux chercheurs, aux éducateurs, au personnel des musées et autres, nous nous sommes associés à Google Cloud et Google Arts et Culture lancer un version interactive gratuite d'Ithaque. Et pour faciliter la poursuite des recherches, nous avons également open source notre code, le modèle pré-entraîné et un cahier de colaboratoire interactif.
Outils collaboratifs
Ithaque est formée sur le le plus grand ensemble de données numériques d'inscriptions grecques du Institut des sciences humaines Packard. Traitement du langage naturel les modèles sont généralement formés à l'aide de mots, car l'ordre dans lequel ils apparaissent dans les phrases et les relations entre eux fournissent un contexte et une signification supplémentaires. Par exemple, « il était une fois » a plus de sens que chaque caractère ou mot vu séparément. Cependant, de nombreuses inscriptions que les historiens souhaitent analyser avec Ithaque sont endommagées et manquent souvent des morceaux de texte. Pour garantir que notre modèle fonctionne toujours lorsqu'il est présenté avec l'un d'entre eux, nous l'avons formé en utilisant à la fois les mots et les caractères individuels comme entrées. Le mécanisme d’auto-attention clairsemé au cœur du modèle évalue ces deux entrées en parallèle, permettant à Ithaca d’évaluer les inscriptions selon ses besoins.
Pour maximiser la valeur d'Ithaque en tant qu'outil de recherche, nous avons également créé un certain nombre d'aides visuelles pour garantir que les résultats d'Ithaque soient facilement interprétables par les historiens :
- Hypothèses de restauration: Ithaca génère plusieurs hypothèses de prédiction pour la tâche de restauration de texte parmi lesquelles les historiens peuvent choisir en utilisant leur expertise.
- Attribution géographique: Ithaque montre son incertitude en donnant aux historiens une distribution de probabilité sur toutes les prédictions possibles – au lieu d’une seule sortie. En conséquence, il renvoie des probabilités pour 84 régions anciennes différentes représentant son niveau de certitude. Il visualise ces résultats sur une carte pour mettre en lumière d’éventuelles connexions géographiques sous-jacentes à travers le monde antique.
- Attribution chronologique: Lors de la datation d'un texte, Ithaque produit une distribution de dates prédites sur toutes les décennies, de 800 avant notre ère à 800 de notre ère. Cela peut permettre aux historiens de visualiser la confiance du modèle pour des plages de dates spécifiques, ce qui peut offrir des informations historiques précieuses.
- Cartes de saillance: Pour transmettre les résultats aux historiens, Ithaca utilise une technique couramment utilisée en vision par ordinateur qui identifie les séquences d'entrée qui contribuent le plus à une prédiction. Le résultat met en évidence les mots dans différentes intensités de couleur qui ont conduit aux prédictions d'Ithaque concernant le texte, le lieu et les dates manquants.
Contribuer aux débats historiques
Notre évaluation expérimentale montre comment les décisions de conception et les aides à la visualisation d'Ithaca facilitent l'interprétation des résultats par les chercheurs. Les historiens experts avec lesquels nous avons travaillé ont atteint une précision de 25 % lorsqu’ils travaillaient seuls pour restaurer des textes anciens. Mais, lors de l'utilisation d'Ithaca, leurs performances augmentent jusqu'à 72 %, dépassant les performances individuelles du modèle et montrant le potentiel de la coopération homme-machine pour faire progresser l'interprétation historique, établir des datations relatives pour les événements historiques et même contribuer aux débats méthodologiques actuels.
Par exemple, les historiens ne sont actuellement pas d’accord sur la date d’une série d’événements importants. Décrets athéniens réalisé à une époque où vivaient des personnalités notables telles que Socrate et Périclès. On a longtemps pensé que les décrets avaient été rédigés avant 446/445 avant notre ère, bien que de nouvelles preuves suggèrent une date des années 420 avant notre ère. Même si cela peut sembler une petite différence, ces décrets sont fondamentaux pour notre compréhension de l’histoire politique de l’Athènes classique.
Notre ensemble de données de formation contient le chiffre antérieur de 446/445 avant notre ère. Pour tester les prédictions d'Ithaque, nous l'avons recyclé sur un ensemble de données qui ne contenait pas les inscriptions datées, puis nous avons soumis ces textes retenus pour analyse. Il est remarquable que la date moyenne prévue des décrets à Ithaque soit 421 avant notre ère, ce qui correspond aux percées les plus récentes en matière de datation et montre comment l'apprentissage automatique peut contribuer aux débats autour de l'un des moments les plus significatifs de l'histoire grecque.
Nous pensons que ce n’est que le début d’outils comme Ithaca et du potentiel de collaboration entre l’apprentissage automatique et les sciences humaines. La Grèce antique joue un rôle déterminant dans notre compréhension du monde méditerranéen, mais elle ne constitue encore qu’une partie d’un vaste tableau global des civilisations. À cette fin, nous travaillons actuellement sur des versions d'Ithaque entraînées sur d'autres langues anciennes et les historiens peuvent déjà utiliser leurs ensembles de données dans l'architecture actuelle pour étudier d'autres systèmes d'écriture anciens, depuis Akkadien à Populaire et hébreu à Maya. Nous espérons que des modèles comme Ithaca pourront libérer le potentiel de coopération entre l’IA et les sciences humaines, ce qui aura un impact transformateur sur la façon dont nous étudions et écrivons sur certaines des périodes les plus importantes de l’histoire de l’humanité.