Pour concevoir des protéines dotées de fonctions utiles, les chercheurs commencent généralement par une protéine naturelle qui a une fonction souhaitable, telle que l'émission de lumière fluorescente, et la soumettent à de nombreuses séries de mutations aléatoires qui génèrent finalement une version optimisée de la protéine.
Ce processus a produit des versions optimisées de nombreuses protéines importantes, notamment la protéine fluorescente verte (GFP). Cependant, pour d’autres protéines, il s’est avéré difficile de générer une version optimisée. Les chercheurs du MIT ont maintenant développé une approche informatique qui facilite la prédiction des mutations qui conduiront à de meilleures protéines, sur la base d'une quantité relativement restreinte de données.
À l’aide de ce modèle, les chercheurs ont généré des protéines présentant des mutations qui devraient conduire à des versions améliorées de la GFP et à une protéine du virus adéno-associé (AAV), utilisée pour délivrer de l’ADN pour la thérapie génique. Ils espèrent que cela pourra également être utilisé pour développer des outils supplémentaires pour la recherche en neurosciences et les applications médicales.
« La conception des protéines est un problème difficile car la cartographie de la séquence d’ADN à la structure et à la fonction des protéines est vraiment complexe. Il peut y avoir une grande protéine à 10 changements dans la séquence, mais chaque changement intermédiaire peut correspondre à une protéine totalement non fonctionnelle. C'est comme essayer de trouver son chemin vers le bassin fluvial dans une chaîne de montagnes, quand il y a des sommets escarpés le long du chemin qui bloquent la vue. Les travaux actuels tentent de rendre le lit de la rivière plus facile à trouver », explique Ila Fiete, professeur de sciences du cerveau et des sciences cognitives au MIT, membre du McGovern Institute for Brain Research du MIT, directeur du K. Lisa Yang Integrative Computational Neuroscience Center, et l'un des auteurs principaux de l'étude.
Regina Barzilay, professeur émérite d'IA et de santé à la School of Engineering du MIT, et Tommi Jaakkola, professeur Thomas Siebel de génie électrique et d'informatique au MIT, sont également les auteurs principaux d'un livre en libre accès. papier sur le travail, qui sera présenté à la Conférence internationale sur les représentations de l'apprentissage en mai. Andrew Kirjner et Jason Yim, étudiants diplômés du MIT, sont les principaux auteurs de l'étude. Parmi les autres auteurs figurent Shahar Bracha, postdoctorant au MIT, et Raman Samusevich, étudiant diplômé à l'Université technique tchèque.
Optimiser les protéines
De nombreuses protéines naturelles ont des fonctions qui pourraient les rendre utiles pour la recherche ou des applications médicales, mais elles nécessitent un peu d’ingénierie supplémentaire pour les optimiser. Dans cette étude, les chercheurs souhaitaient à l’origine développer des protéines qui pourraient être utilisées dans les cellules vivantes comme indicateurs de tension. Ces protéines, produites par certaines bactéries et algues, émettent une lumière fluorescente lorsqu'un potentiel électrique est détecté. Si elles étaient conçues pour être utilisées dans des cellules de mammifères, ces protéines pourraient permettre aux chercheurs de mesurer l’activité neuronale sans utiliser d’électrodes.
Bien que des décennies de recherche aient été consacrées à l'ingénierie de ces protéines pour produire un signal fluorescent plus fort, dans un délai plus rapide, elles ne sont pas devenues suffisamment efficaces pour une utilisation généralisée. Bracha, qui travaille dans le laboratoire d'Edward Boyden à l'Institut McGovern, a contacté le laboratoire de Fiete pour voir s'ils pouvaient travailler ensemble sur une approche informatique susceptible d'accélérer le processus d'optimisation des protéines.
« Ce travail illustre le hasard humain qui caractérise tant de découvertes scientifiques », déclare Fiete. « Il est né de la retraite Yang Tan Collective, une réunion scientifique de chercheurs de plusieurs centres du MIT avec des missions distinctes unifiées par le soutien commun de K. Lisa Yang. Nous avons appris que certains de nos intérêts et outils dans la modélisation de la manière dont le cerveau apprend et optimise pourraient être appliqués dans le domaine totalement différent de la conception des protéines, comme cela est pratiqué dans le laboratoire Boyden.
Pour toute protéine donnée que les chercheurs pourraient vouloir optimiser, il existe un nombre presque infini de séquences possibles qui pourraient être générées en échangeant différents acides aminés à chaque point de la séquence. Avec autant de variantes possibles, il est impossible de toutes les tester expérimentalement. Les chercheurs se sont donc tournés vers la modélisation informatique pour tenter de prédire lesquelles fonctionneront le mieux.
Dans cette étude, les chercheurs ont entrepris de surmonter ces défis, en utilisant les données de GFP pour développer et tester un modèle informatique capable de prédire de meilleures versions de la protéine.
Ils ont commencé par former un type de modèle connu sous le nom de réseau de neurones convolutifs (CNN) sur des données expérimentales constituées de séquences GFP et de leur luminosité – la fonctionnalité qu'ils souhaitaient optimiser.
Le modèle a pu créer un « paysage de remise en forme » – une carte tridimensionnelle qui représente la forme physique d’une protéine donnée et dans quelle mesure elle diffère de la séquence originale – sur la base d’une quantité relativement faible de données expérimentales (provenant d’environ 1 000 variantes de GFP).
Ces paysages contiennent des pics qui représentent des protéines plus en forme et des vallées qui représentent des protéines moins en forme. Prédire le chemin qu’une protéine doit suivre pour atteindre les sommets de forme physique peut être difficile, car souvent, une protéine devra subir une mutation qui la rend moins en forme avant d’atteindre un sommet proche de meilleure forme physique. Pour surmonter ce problème, les chercheurs ont utilisé une technique informatique existante pour « lisser » le paysage du fitness.
Une fois ces petites bosses du paysage lissées, les chercheurs ont recyclé le modèle CNN et ont découvert qu’il était capable d’atteindre plus facilement des pics de condition physique plus élevés. Le modèle a pu prédire des séquences GFP optimisées contenant jusqu'à sept acides aminés différents de la séquence protéique avec laquelle elles ont commencé, et la meilleure de ces protéines a été estimée comme étant environ 2,5 fois plus en forme que l'originale.
« Une fois que nous avons ce paysage qui représente ce que le modèle pense être à proximité, nous le lissons, puis nous reformons le modèle sur la version plus lisse du paysage », explique Kirjner. « Il existe désormais un chemin fluide depuis votre point de départ jusqu'au sommet, que le modèle est désormais capable d'atteindre en apportant de petites améliorations de manière itérative. La même chose est souvent impossible pour des paysages non lissés.
Preuve de concept
Les chercheurs ont également montré que cette approche fonctionnait bien pour identifier de nouvelles séquences de la capside virale du virus adéno-associé (AAV), un vecteur viral couramment utilisé pour délivrer l'ADN. Dans ce cas, ils ont optimisé la capside pour sa capacité à contenir une charge utile d’ADN.
« Nous avons utilisé GFP et AAV comme preuve de concept pour montrer qu'il s'agit d'une méthode qui fonctionne sur des ensembles de données très bien caractérisés et que, de ce fait, elle devrait être applicable à d'autres problèmes d'ingénierie des protéines », explique Bracha. .
Les chercheurs prévoient désormais d'utiliser cette technique informatique sur les données générées par Bracha sur les protéines indicatrices de tension.
« Des dizaines de laboratoires ont travaillé là-dessus depuis deux décennies, et il n'y a toujours rien de mieux », dit-elle. « L'espoir est qu'avec la génération d'un ensemble de données plus petit, nous puissions former un modèle in silico et faire des prédictions qui pourraient être meilleures que les deux dernières décennies de tests manuels. »
La recherche a été financée, en partie, par la National Science Foundation des États-Unis, le consortium Machine Learning for Pharmaceutical Discovery and Synthesis, la clinique Abdul Latif Jameel pour l'apprentissage automatique en santé, le programme DTRA Discovery of Medical Countermeasures Against New and Emerging menaces, le Le programme DARPA Accelerated Molecular Discovery, la subvention Sanofi Computational Antibody Design, l'Office of Naval Research des États-Unis, le Howard Hughes Medical Institute, les National Institutes of Health, le K. Lisa Yang ICoN Center et le K. Lisa Yang et Hock E. Centre Tan pour la thérapeutique moléculaire du MIT.