Recherche
En juillet 2022, nous avons publié les prédictions de la structure des protéines AlphaFold pour presque toutes les protéines cataloguées connues de la science. Lire le dernier blog ici.
Nous sommes ravis de partager la première étape importante de DeepMind en démontrant comment la recherche en intelligence artificielle peut conduire et accélérer de nouvelles découvertes scientifiques. Avec une approche fortement interdisciplinaire de notre travail, DeepMind a réuni des experts des domaines de la biologie structurale, de la physique et de l'apprentissage automatique pour appliquer des techniques de pointe pour prédire la structure 3D d'une protéine sur la base uniquement de sa séquence génétique.
Notre système, AlphaFold, sur lequel nous travaillons depuis deux ans, s'appuie sur des années de recherche antérieure dans l'utilisation de vastes données génomiques pour prédire la structure des protéines. Les modèles 3D de protéines générés par AlphaFold sont bien plus précis que tous ceux précédents, ce qui permet de réaliser des progrès significatifs sur l’un des principaux défis de la biologie.
Quel est le problème du repliement des protéines ?
Les protéines sont de grosses molécules complexes essentielles au maintien de la vie. Presque toutes les fonctions exécutées par notre corps – contracter les muscles, détecter la lumière ou transformer les aliments en énergie – peuvent être attribuées à une ou plusieurs protéines et à la façon dont elles se déplacent et changent. Les recettes de ces protéines, appelées gènes, sont codées dans notre ADN.
Ce que peut faire une protéine donnée dépend de sa structure 3D unique. Par exemple, les protéines d'anticorps qui composent notre système immunitaire ont la forme d'un « Y » et s'apparentent à des crochets uniques. En s'accrochant aux virus et aux bactéries, les protéines anticorps sont capables de détecter et de marquer les micro-organismes pathogènes en vue de leur extermination. De même, les protéines de collagène ont la forme de cordes qui transmettent les tensions entre le cartilage, les ligaments, les os et la peau. D'autres types de protéines incluent Cas9, qui, en utilisant les séquences CRISPR comme guide, agissent comme des ciseaux pour couper et coller des sections d'ADN ; les protéines antigel, dont la structure 3D leur permet de se lier aux cristaux de glace et d'empêcher les organismes de geler ; et les ribosomes qui agissent comme une chaîne de montage programmée, qui aident à construire elles-mêmes les protéines.
Mais déterminer la forme 3D d’une protéine uniquement à partir de sa séquence génétique est une tâche complexe que les scientifiques trouvent difficile depuis des décennies. Le défi est que l'ADN contient uniquement des informations sur la séquence des éléments constitutifs d'une protéine appelés résidus d'acides aminés, qui forment de longues chaînes. Prédire comment ces chaînes se replieront dans la structure 3D complexe d'une protéine est ce que l'on appelle le « problème du repliement des protéines ».
Plus la protéine est grosse, plus sa modélisation est complexe et difficile car il y a plus d’interactions entre acides aminés à prendre en compte. Comme indiqué dans Le paradoxe de Levinthalil faudrait plus de temps que l’âge de l’univers pour énumérer toutes les configurations possibles d’une protéine typique avant d’atteindre la bonne structure 3D.
Pourquoi le repliement des protéines est-il important ?
La capacité de prédire la forme d'une protéine est utile aux scientifiques car elle est fondamentale pour comprendre son rôle dans l'organisme, ainsi que pour diagnostiquer et traiter les maladies que l'on pense être causées par des protéines mal repliées, telles que Alzheimer, Parkinson, Huntington et fibrose kystique.
Nous sommes particulièrement enthousiasmés par la manière dont cela pourrait améliorer notre compréhension du corps et de son fonctionnement, permettant ainsi aux scientifiques de concevoir plus efficacement de nouveaux traitements efficaces contre les maladies. À mesure que nous acquérons davantage de connaissances sur la forme des protéines et leur fonctionnement grâce à des simulations et des modèles, cela ouvre de nouvelles possibilités dans la découverte de médicaments tout en réduisant les coûts associés à l’expérimentation. Cela pourrait à terme améliorer la qualité de vie de millions de patients dans le monde.
Une compréhension du repliement des protéines facilitera également la conception des protéines, ce qui pourrait débloquer un grand nombre d’avantages. Par exemple, les progrès dans le domaine des enzymes biodégradables, qui peuvent être rendus possibles par la conception de protéines, pourraient aider à gérer des polluants comme le plastique et le pétrole, nous aidant ainsi à décomposer les déchets de manière plus respectueuse de notre environnement. En fait, les chercheurs ont déjà commencé bactéries d'ingénierie pour sécréter des protéines qui rendront les déchets biodégradables et plus faciles à traiter.
Pour catalyser la recherche et mesurer les progrès réalisés sur les méthodes les plus récentes permettant d'améliorer l'exactitude des prévisions, un concours biennal mondial appelé CASP (Évaluation critique de la prédiction de la structure des protéines) a été créée en 1994 et est devenue la référence en matière d'évaluation des techniques.
Comment l’IA peut-elle faire la différence ?
Au cours des cinq dernières décennies, les scientifiques ont pu déterminer la forme des protéines en laboratoire à l'aide de techniques expérimentales telles que cryo-microscopie électronique, résonance magnétique nucléaire ou Cristallographie aux rayons X, mais chaque méthode dépend de nombreux essais et erreurs, qui peuvent prendre des années et coûter des dizaines de milliers de dollars par structure. C’est pourquoi les biologistes se tournent vers les méthodes d’IA comme alternative à ce processus long et laborieux pour les protéines difficiles.
Heureusement, le domaine de la génomique est assez riche en données grâce à la réduction rapide du coût du séquençage génétique. En conséquence, l'apprentissage profond approches au problème de prédiction qui s'appuie sur des données génomiques est devenu de plus en plus populaire ces dernières années. Le travail de DeepMind sur ce problème a abouti à AlphaFold, que nous avons soumis au CASP cette année. Nous sommes fiers de faire partie de ce que les organisateurs du CASP ont appelé « un progrès sans précédent dans la capacité des méthodes informatiques à prédire la structure des protéines », plaçant d'abord au classement parmi les équipes inscrites (notre entrée est A7D).
Notre équipe s’est concentrée spécifiquement sur le problème difficile de la modélisation de formes cibles à partir de zéro, sans utiliser de protéines précédemment résolues comme modèles. Nous avons atteint un haut degré de précision lors de la prédiction des propriétés physiques d’une structure protéique, puis avons utilisé deux méthodes distinctes pour construire des prédictions de structures protéiques complètes.
Utiliser des réseaux de neurones pour prédire les propriétés physiques
Ces deux méthodes reposaient sur des réseaux neuronaux profonds entraînés à prédire les propriétés de la protéine à partir de sa séquence génétique. Les propriétés prédites par nos réseaux sont : (a) les distances entre les paires d’acides aminés et (b) les angles entre les liaisons chimiques qui relient ces acides aminés. Le premier développement est une avancée par rapport aux techniques couramment utilisées pour évaluer si les paires d’acides aminés sont proches les unes des autres.
Nous avons formé un réseau neuronal pour prédire une distribution distincte des distances entre chaque paire de résidus dans une protéine. Ces probabilités ont ensuite été combinées dans un score qui estime la précision d’une structure protéique proposée. Nous avons également formé un réseau neuronal distinct qui utilise toutes les distances globalement pour estimer à quel point la structure proposée est proche de la bonne réponse.
Nouvelles méthodes pour construire des prédictions des structures protéiques
Grâce à ces fonctions de notation, nous avons pu parcourir le paysage protéique pour trouver des structures correspondant à nos prédictions. Notre première méthode s’appuyait sur des techniques couramment utilisées en biologie structurale et remplaçait à plusieurs reprises des morceaux de structure protéique par de nouveaux fragments protéiques. Nous avons formé un réseau neuronal génératif pour inventer de nouveaux fragments, qui ont été utilisés pour améliorer continuellement le score de la structure protéique proposée.
La deuxième méthode optimise les scores grâce à Descente graduelle– une technique mathématique couramment utilisée dans l'apprentissage automatique pour apporter de petites améliorations incrémentielles – qui a abouti à des structures très précises. Cette technique a été appliquée à des chaînes protéiques entières plutôt qu’à des morceaux qui doivent être pliés séparément avant d’être assemblés, réduisant ainsi la complexité du processus de prédiction.
Que se passe-t-il ensuite ?
Le succès de notre première incursion dans le repliement des protéines est révélateur de la manière dont les systèmes d’apprentissage automatique peuvent intégrer diverses sources d’informations pour aider les scientifiques à trouver rapidement des solutions créatives à des problèmes complexes. Tout comme nous avons vu comment l'IA peut aider les gens à maîtriser des jeux complexes grâce à des systèmes tels que AlphaGo et AlphaZéronous espérons également qu’un jour, les avancées de l’IA nous aideront également à résoudre des problèmes scientifiques fondamentaux.
Il est passionnant de constater ces premiers signes de progrès dans le repliement des protéines, démontrant l’utilité de l’IA pour la découverte scientifique. Même s'il reste encore beaucoup de travail à faire avant de pouvoir avoir un impact quantifiable sur le traitement des maladies, la gestion de l'environnement, etc., nous savons que le potentiel est énorme. Avec une équipe dédiée qui se concentre sur la façon dont l'apprentissage automatique peut faire progresser le monde de la science, nous sommes impatients de voir les nombreuses façons dont notre technologie peut faire la différence.