Une stratégie de reprogrammation cellulaire consiste à utiliser des interventions génétiques ciblées pour modifier une cellule dans un nouvel état. La technique est très prometteuse en immunothérapie, par exemple, où les chercheurs pourraient reprogrammer les lymphocytes T d'un patient afin qu'ils soient des tueurs plus puissants du cancer. Un jour, cette approche pourrait également aider à identifier des traitements contre le cancer qui sauvent des vies ou des thérapies régénératives qui réparent les organes ravagés par la maladie.
Mais le corps humain possède environ 20 000 gènes, et une perturbation génétique pourrait concerner une combinaison de gènes ou l’un des plus de 1 000 facteurs de transcription qui régulent les gènes. Parce que l’espace de recherche est vaste et que les expériences génétiques sont coûteuses, les scientifiques ont souvent du mal à trouver la perturbation idéale pour leur application particulière.
Des chercheurs du MIT et de l'Université Harvard ont développé une nouvelle approche informatique capable d'identifier efficacement les perturbations génétiques optimales sur la base d'un nombre d'expériences beaucoup plus restreint que les méthodes traditionnelles.
Leur technique algorithmique exploite la relation de cause à effet entre les facteurs d’un système complexe, tel que la régulation du génome, pour donner la priorité à la meilleure intervention dans chaque série d’expériences séquentielles.
Les chercheurs ont mené une analyse théorique rigoureuse pour déterminer que leur technique identifiait effectivement les interventions optimales. Une fois ce cadre théorique en place, ils ont appliqué les algorithmes à des données biologiques réelles conçues pour imiter une expérience de reprogrammation cellulaire. Leurs algorithmes étaient les plus efficaces et efficients.
« Trop souvent, les expériences à grande échelle sont conçues de manière empirique. Un cadre causal minutieux pour l'expérimentation séquentielle peut permettre d'identifier les interventions optimales avec moins d'essais, réduisant ainsi les coûts expérimentaux », explique Caroline Uhler, co-auteure principale, professeure au Département de génie électrique et d'informatique (EECS), également co-directrice. du Centre Eric et Wendy Schmidt du Broad Institute du MIT et de Harvard, et chercheur au Laboratoire des systèmes d'information et de décision (LIDS) et à l'Institut des données, des systèmes et de la société (IDSS) du MIT.
Rejoindre Uhler sur le papierqui paraît aujourd'hui dans Intelligence des machines naturelles, sont l'auteur principal Jiaqi Zhang, étudiant diplômé et boursier du Centre Eric et Wendy Schmidt ; co-auteur principal Themistoklis P. Sapsis, professeur de génie mécanique et océanique au MIT et membre de l'IDSS ; et d'autres à Harvard et au MIT.
Apprentissage actif
Lorsque les scientifiques tentent de concevoir une intervention efficace pour un système complexe, comme dans le cas de la reprogrammation cellulaire, ils effectuent souvent des expériences de manière séquentielle. De tels paramètres sont parfaitement adaptés à l’utilisation d’une approche d’apprentissage automatique appelée apprentissage actif. Des échantillons de données sont collectés et utilisés pour apprendre un modèle du système qui intègre les connaissances recueillies jusqu'à présent. À partir de ce modèle, une fonction d'acquisition est conçue : une équation qui évalue toutes les interventions potentielles et sélectionne la meilleure à tester lors du prochain essai.
Ce processus est répété jusqu'à ce qu'une intervention optimale soit identifiée (ou que les ressources nécessaires au financement des expériences ultérieures soient épuisées).
« Bien qu'il existe plusieurs fonctions d'acquisition génériques permettant de concevoir des expériences de manière séquentielle, celles-ci ne sont pas efficaces pour des problèmes d'une telle complexité, ce qui entraîne une convergence très lente », explique Sapsis.
Les fonctions d'acquisition prennent généralement en compte la corrélation entre les facteurs, tels que les gènes co-exprimés. Mais se concentrer uniquement sur la corrélation ignore les relations régulatrices ou la structure causale du système. Par exemple, une intervention génétique ne peut affecter que l’expression des gènes en aval, mais une approche basée sur la corrélation ne serait pas en mesure de faire la distinction entre les gènes en amont et en aval.
« Vous pouvez apprendre une partie de ces connaissances causales à partir des données et les utiliser pour concevoir une intervention plus efficace », explique Zhang.
Les chercheurs du MIT et de Harvard ont exploité cette structure causale sous-jacente pour leur technique. Premièrement, ils ont soigneusement construit un algorithme afin qu’il puisse apprendre uniquement les modèles du système qui tiennent compte des relations causales.
Ensuite, les chercheurs ont conçu la fonction d'acquisition de manière à ce qu'elle évalue automatiquement les interventions en utilisant des informations sur ces relations causales. Ils ont conçu cette fonction de manière à ce qu'elle donne la priorité aux interventions les plus informatives, c'est-à-dire celles les plus susceptibles de conduire à l'intervention optimale dans les expériences ultérieures.
« En considérant des modèles causals plutôt que des modèles basés sur la corrélation, nous pouvons déjà exclure certaines interventions. Ensuite, chaque fois que vous obtenez de nouvelles données, vous pouvez apprendre un modèle causal plus précis et ainsi réduire davantage l’espace des interventions », explique Uhler.
Cet espace de recherche réduit, associé à l'accent particulier mis par la fonction d'acquisition sur les interventions les plus informatives, est ce qui rend leur approche si efficace.
Les chercheurs ont encore amélioré leur fonction d’acquisition à l’aide d’une technique connue sous le nom de pondération de sortie, inspirée de l’étude des événements extrêmes dans des systèmes complexes. Cette méthode met soigneusement l’accent sur les interventions susceptibles d’être plus proches de l’intervention optimale.
« Essentiellement, nous considérons une intervention optimale comme un « événement extrême » dans l'espace de toutes les interventions sous-optimales possibles et utilisons certaines des idées que nous avons développées pour ces problèmes », explique Sapsis.
Efficacité améliorée
Ils ont testé leurs algorithmes en utilisant des données biologiques réelles dans une expérience de reprogrammation cellulaire simulée. Pour ce test, ils ont recherché une perturbation génétique qui entraînerait un changement souhaité dans l’expression moyenne des gènes. Leurs fonctions d'acquisition ont systématiquement identifié de meilleures interventions que les méthodes de base à chaque étape de l'expérience en plusieurs étapes.
« Si vous interrompiez l’expérience à n’importe quel stade, la nôtre serait toujours plus efficace que les lignes de base. Cela signifie que vous pouvez réaliser moins d’expériences et obtenir des résultats identiques ou meilleurs », explique Zhang.
Les chercheurs travaillent actuellement avec des expérimentateurs pour appliquer leur technique à la reprogrammation cellulaire en laboratoire.
Leur approche pourrait également être appliquée à des problèmes extérieurs à la génomique, tels que l’identification des prix optimaux pour les produits de consommation ou la possibilité d’un contrôle par rétroaction optimal dans les applications de mécanique des fluides.
À l’avenir, ils prévoient d’améliorer leur technique d’optimisation au-delà de celles qui cherchent à correspondre à une moyenne souhaitée. En outre, leur méthode suppose que les scientifiques comprennent déjà les relations causales dans leur système, mais des travaux futurs pourraient également explorer la manière d’utiliser l’IA pour apprendre ces informations.
Ce travail a été financé, en partie, par l'Office of Naval Research, le MIT-IBM Watson AI Lab, la MIT J-Clinic for Machine Learning and Health, le Eric and Wendy Schmidt Center du Broad Institute, un Simons Investigator Award, le Bureau de la recherche scientifique de l'Air Force et une bourse d'études supérieures de la National Science Foundation.