Un catalogue de mutations génétiques pour aider à identifier la cause des maladies

Contenu

Qu'est-ce qu'une variante faux-sens ?Pathogène ou bénin : comment AlphaMissense classe les variantes Construire une ressource communautaire Accélérer la recherche sur les maladies génétiques En savoir plus sur AlphaMissense :

Recherche

Publié: 19 septembre 2023
Auteurs: Ziga Avsec et Jun Cheng

Un nouvel outil d'IA classe les effets de 71 millions de mutations « faux-sens »

Découvrir les causes profondes des maladies constitue l’un des plus grands défis de la génétique humaine. Avec des millions de mutations possibles et des données expérimentales limitées, le mystère demeure quant à savoir lesquelles pourraient donner naissance à une maladie. Ces connaissances sont cruciales pour accélérer le diagnostic et développer des traitements salvateurs.

Aujourd'hui, nous publions un catalogue de mutations « faux-sens » où les chercheurs peuvent en apprendre davantage sur leurs effets possibles. Les variantes faux-sens sont des mutations génétiques qui peuvent affecter la fonction des protéines humaines. Dans certains cas, elles peuvent entraîner des maladies telles que la mucoviscidose, la drépanocytose ou le cancer.

Le catalogue AlphaMissense a été développé à l'aide d'AlphaMissense, notre nouveau modèle d'IA qui classe les variantes faux-sens. Dans un article publié dans Science, nous montrons qu'il a classé 89 % des 71 millions de variantes faux-sens possibles comme probablement pathogènes ou probablement bénignes. En revanche, seuls 0,1 % ont été confirmés par des experts humains.

Les outils d’IA capables de prédire avec précision l’effet des variantes ont le pouvoir d’accélérer la recherche dans des domaines allant de la biologie moléculaire à la génétique clinique et statistique. Expériences pour découvrir des mutations pathogènes sont coûteux et laborieux – chaque protéine est unique et chaque expérience doit être conçue séparément, ce qui peut prendre des mois. En utilisant les prédictions de l’IA, les chercheurs peuvent obtenir un aperçu des résultats pour des milliers de protéines à la fois, ce qui peut aider à hiérarchiser les ressources et à accélérer des études plus complexes.

Nous avons mis toutes nos prédictions gratuitement à la disposition de la communauté des chercheurs et avons mis en open source les code modèle pour AlphaMissense.

AlphaMissense a prédit le pouvoir pathogène de toutes les 71 millions de variantes faux-sens possibles. Il en a classé 89 % – prédisant que 57 % étaient probablement bénins et 32 % étaient probablement pathogènes.

Qu'est-ce qu'une variante faux-sens ?

Une variante faux-sens est une substitution d’une seule lettre dans l’ADN qui aboutit à un acide aminé différent dans une protéine. Si vous considérez l’ADN comme un langage, changer une lettre peut changer un mot et modifier complètement le sens d’une phrase. Dans ce cas, une substitution modifie l’acide aminé traduit, ce qui peut affecter la fonction d’une protéine.

La personne moyenne porte plus de 9 000 variantes de faux-sens. La plupart sont bénins et ont peu ou pas d’effet, mais d’autres sont pathogènes et peuvent gravement perturber la fonction des protéines. Les variantes faux-sens peuvent être utilisées dans le diagnostic de maladies génétiques rares, où quelques variantes faux-sens, voire une seule, peuvent directement provoquer une maladie. Ils sont également importants pour étudier des maladies complexes, comme le diabète de type 2, qui peuvent être provoquées par une combinaison de nombreux types différents de modifications génétiques.

La classification des variantes faux-sens est une étape importante pour comprendre lesquels de ces changements protéiques pourraient donner lieu à une maladie. Sur plus de 4 millions de variantes faux-sens déjà observées chez l'homme, seulement 2 % ont été annotées comme pathogènes ou bénignes par les experts, soit environ 0,1 % des 71 millions de variantes faux-sens possibles. Les autres sont considérés comme des « variantes d’importance inconnue » en raison du manque de données expérimentales ou cliniques sur leur impact. Avec AlphaMissense, nous disposons désormais de l’image la plus claire à ce jour en classant 89 % des variantes en utilisant un seuil qui a donné une précision de 90 % sur une base de données de variantes de maladies connues.

Pathogène ou bénin : comment AlphaMissense classe les variantes

AlphaMissense est basé sur notre modèle révolutionnaire AlphaFold, qui prédisait les structures de presque toutes les protéines connues de la science à partir de leurs séquences d'acides aminés. Notre modèle adapté peut prédire la pathogénicité des variantes faux-sens altérant les acides aminés individuels des protéines.

Pour former AlphaMissense, nous avons affiné AlphaFold sur des étiquettes distinguant les variantes observées dans les populations humaines et de primates étroitement apparentées. Les variantes couramment observées sont traitées comme bénignes et les variantes jamais observées sont traitées comme pathogènes. AlphaMissense ne prédit pas le changement dans la structure des protéines lors d'une mutation ou d'autres effets sur la stabilité des protéines. Au lieu de cela, il exploite des bases de données de séquences protéiques associées et le contexte structurel des variantes pour produire un score compris entre 0 et 1, évaluant approximativement la probabilité qu'une variante soit pathogène. Le score continu permet aux utilisateurs de choisir un seuil de classification des variantes comme pathogènes ou bénignes qui correspond à leurs exigences de précision.

Une illustration de la façon dont AlphaMissense classe les variantes du faux-sens humain. Une variante faux-sens est saisie et le système d’IA la considère comme pathogène ou probablement bénigne. AlphaMissense combine le contexte structurel et la modélisation du langage protéique, et est affiné sur les bases de données de fréquence de populations de variantes humaines et de primates.

AlphaMissense réalise des prédictions de pointe sur un large éventail de références génétiques et expérimentales, le tout sans formation explicite sur ces données. Notre outil a surpassé les autres méthodes informatiques lorsqu’il est utilisé pour classer les variantes de ClinVar, une archive publique de données sur la relation entre les variantes humaines et la maladie. Notre modèle était également la méthode la plus précise pour prédire les résultats du laboratoire, ce qui montre qu’il est cohérent avec différentes manières de mesurer la pathogénicité.

AlphaMissense surpasse les autres méthodes informatiques pour prédire les effets des variantes faux-sens.
Gauche: Comparaison des performances d'AlphaMissense et d'autres méthodes sur la classification des variantes de l'archive publique Clinvar. Les méthodes affichées en gris ont été entraînées directement sur ClinVar et leurs performances sur ce benchmark sont probablement surestimées puisque certaines de leurs variantes d'entraînement sont contenues dans cet ensemble de tests.
Droite: Graphique comparant les performances d'AlphaMissense et d'autres méthodes pour prédire les mesures issues d'expériences biologiques.

Construire une ressource communautaire

AlphaMissense s'appuie sur AlphaFold pour approfondir la compréhension mondiale des protéines. Il y a un an, nous avons publié 200 millions de structures protéiques prédit grâce à AlphaFold, qui aide des millions de scientifiques du monde entier à accélérer la recherche et à ouvrir la voie à de nouvelles découvertes. Nous sommes impatients de voir comment AlphaMissense peut aider à résoudre des questions ouvertes au cœur de la génomique et dans les sciences biologiques.

Nous avons mis les prédictions d'AlphaMissense à la disposition gratuite de la communauté scientifique. En collaboration avec l'EMBL-EBI, nous les rendons également plus utilisables par les chercheurs grâce au Prédicteur d'effet de variante d'ensemble.

En plus de notre table de recherche des mutations faux-sens, nous avons partagé les prédictions élargies de toutes les substitutions possibles de 216 millions de séquences d'acides aminés uniques sur plus de 19 000 protéines humaines. Nous avons également inclus la prédiction moyenne pour chaque gène, ce qui est similaire à la mesure de la contrainte évolutive d'un gène : elle indique à quel point le gène est essentiel à la survie de l'organisme.

Exemples de prédictions AlphaMissense superposées aux structures prédites par AlphaFold (rouge = prédit comme pathogène, bleu = prédit comme bénin, gris = incertain). Les points rouges représentent les variantes faux-sens pathogènes connues, les points bleus représentent les variantes bénignes connues de la base de données ClinVar.
Gauche: Protéine HBB. Des variantes de cette protéine peuvent provoquer une anémie falciforme.
Droite: Protéine CFTR. Des variantes de cette protéine peuvent provoquer la mucoviscidose.

Accélérer la recherche sur les maladies génétiques

Une étape clé dans la traduction de ces recherches consiste à collaborer avec la communauté scientifique. Nous travaillons en partenariat avec Genomics England pour explorer comment ces prédictions pourraient aider à étudier la génétique des maladies rares. Genomics England a croisé les résultats d'AlphaMissense avec des données sur la pathogénicité des variantes précédemment regroupées avec des participants humains. Leur évaluation a confirmé que nos prédictions sont exactes et cohérentes, fournissant ainsi une autre référence concrète pour AlphaMissense.

Bien que nos prédictions ne soient pas conçues pour être utilisées directement en clinique – et doivent être interprétées avec d’autres sources de preuves – ces travaux ont le potentiel d’améliorer le diagnostic de maladies génétiques rares et d’aider à découvrir de nouveaux gènes à l’origine de maladies.

À terme, nous espérons qu’AlphaMissense, associé à d’autres outils, permettra aux chercheurs de mieux comprendre les maladies et de développer de nouveaux traitements salvateurs.

Remarques

Nous tenons à remercier Juanita Bawagan, Jess Valdez, Katie McAtackney, Kathryn Seager et Hollie Dobson pour leur aide avec le texte et les figures. Nous sommes également reconnaissants envers nos partenaires externes, Genomics England et EMBL-EBI, pour leur soutien continu. Ce travail a été réalisé grâce aux contributions des co-auteurs : Guido Novati, Joshua Pan, Clare Bycroft, Akvilė Žemgulytė, Taylor Applebaum, Alexander Pritzel, Lai Hong Wong, Michal Zielinski, Tobias Sargeant, Rosalia G. Schneider, Andrew W. Sénior, John Jumper, Demis Hassabis, Pushmeet Kohli. Nous tenons également à remercier Kathryn Tunyasuvunakool, Rob Fergus, Eliseo Papa, David La, Zachary Wu, Sara-Jane Dunn, Kyle R. Taylor, Natasha Latysheva, Hamish Tomlinson, Augustin Žídek, Roz Onions, Mira Lutfi, Jon Small, Molly Beck, Annette Obika, Hannah Gladman, Folake Abu, Alyssa Pierce, James Tam, Q Green, Meera Last, Tharindi Hapuarachchi et la grande équipe de Google DeepMind pour leur soutien, leur aide et leurs commentaires.

Un catalogue de mutations génétiques pour aider à identifier la cause des maladies

Qu'est-ce qu'une variante faux-sens ?

Pathogène ou bénin : comment AlphaMissense classe les variantes

Construire une ressource communautaire

Accélérer la recherche sur les maladies génétiques

Laisser un commentaire Annuler la réponse

Rester Connecter

Dernières nouvelles

Google a réduit les aperçus de l'IA dans la recherche avant même son fiasco « Pizza Glue »

OpenAI réagit à la version non censurée de ChatGPT

Cet outil de piratage extrait toutes les données collectées par la nouvelle IA de rappel de Windows

Comment avoir une voix de narrateur ?

Journal IA : Votre Source d’Innovation et d’Inspiration au Quotidien

Mention Légale

Inscrivez-vous à notre newsletter

Qu'est-ce qu'une variante faux-sens ?

Pathogène ou bénin : comment AlphaMissense classe les variantes

Construire une ressource communautaire

Accélérer la recherche sur les maladies génétiques

Vous pourriez aussi aimer

Inscrivez-vous à la newsletter quotidienne

Soyez à jour ! Recevez les dernières nouvelles directement dans votre boîte de réception.

Laisser un commentaire Annuler la réponse

Rester Connecter

Dernières nouvelles