Le premier cas documenté de cancer du pancréas remonte au XVIIIe siècle. Depuis lors, les chercheurs ont entrepris une odyssée longue et difficile pour comprendre cette maladie insaisissable et mortelle. À ce jour, il n’existe pas de meilleur traitement contre le cancer qu’une intervention précoce. Malheureusement, le pancréas, niché profondément dans l’abdomen, est particulièrement difficile à détecter à un stade précoce.
Les scientifiques du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL), aux côtés de Limor Appelbaum, chercheur au Département de radio-oncologie du Centre médical Beth Israel Deaconess (BIDMC), étaient impatients de mieux identifier les patients potentiels à haut risque. Ils ont entrepris de développer deux modèles d’apprentissage automatique pour la détection précoce de l’adénocarcinome canalaire pancréatique (PDAC), la forme la plus courante de cancer. Pour accéder à une base de données large et diversifiée, l'équipe s'est synchronisée avec une société de réseau fédérée, en utilisant les données des dossiers de santé électroniques de diverses institutions à travers les États-Unis. Ce vaste pool de données a contribué à garantir la fiabilité et la généralisabilité des modèles, les rendant applicables à un large éventail de populations, de zones géographiques et de groupes démographiques.
Les deux modèles — le réseau neuronal « PRISM » et le modèle de régression logistique (une technique statistique de probabilité) ont surpassé les méthodes actuelles. La comparaison de l'équipe a montré que même si les critères de dépistage standard identifient environ 10 pour cent des cas de PDAC en utilisant un seuil de risque relatif cinq fois plus élevé, Prism peut détecter 35 pour cent des cas de PDAC à ce même seuil.
Utiliser l’IA pour détecter le risque de cancer n’est pas un phénomène nouveau — les algorithmes analysent les mammographies, les tomodensitogrammes pour le cancer du poumon et aident à l'analyse des tests Pap et des tests HPV, pour ne citer que quelques applications. « Les modèles PRISM se distinguent par leur développement et leur validation sur une vaste base de données de plus de 5 millions de patients, dépassant l'ampleur de la plupart des recherches antérieures dans le domaine », déclare Kai Jia, doctorant au MIT en génie électrique et informatique (EECS). , affilié au MIT CSAIL et premier auteur d'un projet en libre accès papier dans eBioMédecine décrivant le nouveau travail. « Le modèle utilise des données cliniques et de laboratoire de routine pour faire ses prédictions, et la diversité de la population américaine constitue un progrès significatif par rapport aux autres modèles PDAC, qui sont généralement confinés à des régions géographiques spécifiques, comme quelques centres de santé aux États-Unis. , l'utilisation d'une technique de régularisation unique dans le processus de formation a amélioré la généralisabilité et l'interprétabilité des modèles.
« Ce rapport décrit une approche puissante pour utiliser les algorithmes du Big Data et de l'intelligence artificielle pour affiner notre approche d'identification des profils de risque de cancer », déclare David Avigan, professeur à la Harvard Medical School et directeur du centre de lutte contre le cancer et chef du département d'hématologie et d'hémopathies malignes au BIDMC. , qui n’a pas participé à l’étude. « Cette approche pourrait conduire à de nouvelles stratégies permettant d'identifier les patients présentant un risque élevé de cancer et susceptibles de bénéficier d'un dépistage ciblé avec un potentiel d'intervention précoce. »
Perspectives prismatiques
Le parcours vers le développement de PRISM a commencé il y a plus de six ans, alimenté par des expériences directes concernant les limites des pratiques de diagnostic actuelles. « Environ 80 à 85 pour cent des patients atteints d'un cancer du pancréas sont diagnostiqués à des stades avancés, où la guérison n'est plus une option », explique l'auteur principal Appelbaum, qui est également instructeur à la Harvard Medical School ainsi que radio-oncologue. « Cette frustration clinique a suscité l’idée d’explorer la richesse des données disponibles dans les dossiers de santé électroniques (DSE). »
L'étroite collaboration du groupe CSAIL avec Appelbaum a permis de mieux comprendre les aspects combinés médicaux et d'apprentissage automatique du problème, conduisant finalement à un modèle beaucoup plus précis et transparent. « L'hypothèse était que ces enregistrements contenaient des indices cachés – des signes et symptômes subtils qui pourraient servir de signaux d'alerte précoces du cancer du pancréas », ajoute-t-elle. « Cela a guidé notre utilisation des réseaux de DSE fédérés dans le développement de ces modèles, pour une approche évolutive de déploiement d'outils de prédiction des risques dans les soins de santé. »
Les modèles PrismNN et PrismLR analysent les données DSE, y compris les données démographiques des patients, les diagnostics, les médicaments et les résultats de laboratoire, pour évaluer le risque PDAC. PrismNN utilise des réseaux de neurones artificiels pour détecter des modèles complexes dans des caractéristiques de données telles que l'âge, les antécédents médicaux et les résultats de laboratoire, ce qui donne un score de risque pour la probabilité de PDAC. PrismLR utilise la régression logistique pour une analyse plus simple, générant un score de probabilité de PDAC basé sur ces caractéristiques. Ensemble, les modèles offrent une évaluation approfondie de différentes approches pour prédire le risque PDAC à partir des mêmes données DSE.
Selon l’équipe, un point primordial pour gagner la confiance des médecins est de mieux comprendre le fonctionnement des modèles, ce que l’on appelle dans le domaine l’interprétabilité. Les scientifiques ont souligné que même si les modèles de régression logistique sont intrinsèquement plus faciles à interpréter, les progrès récents ont rendu les réseaux neuronaux profonds un peu plus transparents. Cela a aidé l'équipe à affiner les milliers de caractéristiques potentiellement prédictives dérivées du DSE d'un seul patient jusqu'à environ 85 indicateurs critiques. Ces indicateurs, qui incluent l'âge du patient, le diagnostic de diabète et une fréquence accrue de visites chez le médecin, sont automatiquement découverts par le modèle mais correspondent à la compréhension des médecins des facteurs de risque associés au cancer du pancréas.
La voie à suivre
Malgré la promesse des modèles PRISM, comme pour toute recherche, certaines parties sont encore en chantier. Les données américaines constituent à elles seules le régime actuel des modèles, nécessitant des tests et des adaptations pour une utilisation mondiale. La voie à suivre, note l'équipe, consiste à élargir l'applicabilité du modèle aux ensembles de données internationaux et à intégrer des biomarqueurs supplémentaires pour une évaluation des risques plus raffinée.
« Un autre objectif pour nous est de faciliter la mise en œuvre des modèles dans les établissements de soins de santé courants. L’objectif est de faire fonctionner ces modèles de manière transparente en arrière-plan des systèmes de santé, en analysant automatiquement les données des patients et en alertant les médecins des cas à haut risque sans alourdir leur charge de travail », explique Jia. « Un modèle d'apprentissage automatique intégré au système DSE pourrait permettre aux médecins de recevoir des alertes précoces pour les patients à haut risque, permettant potentiellement d'intervenir bien avant que les symptômes ne se manifestent. Nous sommes impatients de déployer nos techniques dans le monde réel pour aider tous les individus à vivre plus longtemps et en meilleure santé.
Jia a rédigé l'article aux côtés d'Applebaum et du professeur Martin Rinard du MIT EECS et chercheur principal du CSAIL, qui sont tous deux auteurs principaux de l'article. Les chercheurs travaillant sur l'article ont été soutenus, pendant leur séjour au MIT CSAIL, en partie par la Defense Advanced Research Projects Agency, Boeing, la National Science Foundation et Aarno Labs. TriNetX a fourni des ressources pour le projet et la Prevent Cancer Foundation a également soutenu l'équipe.