Les bases de données de séquences microbiennes contiennent une multitude d’informations sur les enzymes et autres molécules qui pourraient être adaptées à la biotechnologie. Mais ces bases de données sont devenues si volumineuses ces dernières années qu’il est devenu difficile de rechercher efficacement des enzymes intéressantes.
Aujourd'hui, des scientifiques du McGovern Institute for Brain Research du MIT, du Broad Institute du MIT et de Harvard et du National Center for Biotechnology Information (NCBI) des National Institutes of Health ont développé un nouvel algorithme de recherche qui a identifié 188 types de nouveaux systèmes CRISPR rares dans les génomes bactériens, englobant des milliers de systèmes individuels. Le travail apparaît aujourd'hui dans Science.
L'algorithme, qui provient du laboratoire du professeur pionnier chercheur CRISPR Feng Zhang, utilise des approches de clustering Big Data pour rechercher rapidement des quantités massives de données génomiques. L'équipe a utilisé son algorithme, appelé FLSHclust (Fast Locality-Sensitive Hashing-based clustering), pour exploiter trois bases de données publiques majeures contenant des données sur un large éventail de bactéries inhabituelles, notamment celles trouvées dans les mines de charbon, les brasseries, les lacs de l'Antarctique et la salive de chien. . Les scientifiques ont découvert un nombre et une diversité surprenants de systèmes CRISPR, y compris ceux qui pourraient apporter des modifications à l'ADN des cellules humaines, d'autres qui peuvent cibler l'ARN, et beaucoup d'entre eux ayant diverses autres fonctions.
Les nouveaux systèmes pourraient potentiellement être exploités pour modifier des cellules de mammifères avec moins d’effets hors cible que les systèmes Cas9 actuels. Ils pourraient également un jour être utilisés à des fins de diagnostic ou servir d’enregistrement moléculaire de l’activité à l’intérieur des cellules.
Les chercheurs affirment que leurs recherches mettent en évidence un niveau sans précédent de diversité et de flexibilité de CRISPR et qu'il reste probablement encore de nombreux systèmes rares à découvrir à mesure que les bases de données continuent de croître.
« La biodiversité est un véritable trésor, et à mesure que nous continuons à séquencer davantage de génomes et d'échantillons métagénomiques, il existe un besoin croissant de meilleurs outils, comme FLSHclust, pour parcourir cet espace de séquence et trouver les joyaux moléculaires », explique Zhang, co- auteur principal de l'étude et professeur James et Patricia Poitras de neurosciences au MIT avec des nominations conjointes dans les départements des sciences du cerveau et cognitives et du génie biologique. Zhang est également chercheur à l'Institut McGovern pour la recherche sur le cerveau du MIT, membre principal de l'institut au Broad et chercheur au Howard Hughes Medical Institute. Eugene Koonin, chercheur distingué au NCBI, est également co-auteur principal de l'étude.
Recherche de CRISPR
CRISPR, qui signifie répétitions palindromiques courtes et régulièrement espacées, est un système de défense bactérien qui a été intégré à de nombreux outils d'édition et de diagnostic du génome.
Pour exploiter des bases de données de séquences de protéines et d'acides nucléiques pour les nouveaux systèmes CRISPR, les chercheurs ont développé un algorithme basé sur une approche empruntée à la communauté du big data. Cette technique, appelée hachage sensible à la localité, regroupe des objets similaires mais pas exactement identiques. L’utilisation de cette approche a permis à l’équipe de sonder des milliards de séquences de protéines et d’ADN – depuis le NCBIc'est Fusil de chasse à génome entier base de données, et le Institut commun du génome — en quelques semaines, alors que les méthodes précédentes qui recherchaient des objets identiques auraient pris des mois. Ils ont conçu leur algorithme pour rechercher les gènes associés à CRISPR.
« Ce nouvel algorithme nous permet d'analyser les données dans un laps de temps suffisamment court pour que nous puissions réellement récupérer des résultats et émettre des hypothèses biologiques », explique Soumya Kannan PhD '23, co-premier auteur de l'étude. Kannan était étudiant diplômé dans le laboratoire de Zhang lorsque l'étude a commencé et est actuellement postdoctorant et chercheur junior à l'Université Harvard. Han Altae-Tran PhD '23, étudiant diplômé du laboratoire de Zhang pendant l'étude et actuellement postdoctorant à l'Université de Washington, était l'autre co-premier auteur de l'étude.
« Cela témoigne de ce que vous pouvez faire lorsque vous améliorez les méthodes d'exploration et utilisez autant de données que possible », déclare Altae-Tran. « C'est vraiment passionnant de pouvoir améliorer l'échelle à laquelle nous effectuons nos recherches. »
Nouveaux systèmes
Dans leur analyse, Altae-Tran, Kannan et leurs collègues ont remarqué que les milliers de systèmes CRISPR qu'ils ont trouvés se répartissaient en quelques catégories existantes et dans de nombreuses nouvelles catégories. Ils ont étudié plusieurs des nouveaux systèmes plus en détail en laboratoire.
Ils ont découvert plusieurs nouvelles variantes des systèmes CRISPR de type I connus, qui utilisent un ARN guide long de 32 paires de bases plutôt que le guide de 20 nucléotides de Cas9. En raison de leurs ARN guides plus longs, ces systèmes de type I pourraient potentiellement être utilisés pour développer une technologie d’édition de gènes plus précise et moins sujette à l’édition hors cible. L'équipe de Zhang a montré que deux de ces systèmes pouvaient apporter de courtes modifications à l'ADN des cellules humaines. Et comme ces systèmes de type I sont de taille similaire à CRISPR-Cas9, ils pourraient probablement être administrés à des cellules d'animaux ou d'humains en utilisant les mêmes technologies de délivrance de gènes que celles utilisées aujourd'hui pour CRISPR.
L’un des systèmes de type I a également montré une « activité collatérale » – une large dégradation des acides nucléiques après que la protéine CRISPR se soit liée à sa cible. Les scientifiques ont utilisé des systèmes similaires pour effectuer des diagnostics de maladies infectieuses telles que SHERLOCKun outil capable de détecter rapidement une seule molécule d’ADN ou d’ARN. L'équipe de Zhang pense que les nouveaux systèmes pourraient également être adaptés aux technologies de diagnostic.
Les chercheurs ont également découvert de nouveaux mécanismes d’action pour certains systèmes CRISPR de type IV et un système de type VII qui cible précisément l’ARN, qui pourraient potentiellement être utilisés dans l’édition d’ARN. D’autres systèmes pourraient potentiellement être utilisés comme outils d’enregistrement – un document moléculaire indiquant le moment où un gène a été exprimé – ou comme capteurs d’une activité spécifique dans une cellule vivante.
Données minières
Les scientifiques affirment que leur algorithme pourrait faciliter la recherche d’autres systèmes biochimiques. « Cet algorithme de recherche pourrait être utilisé par quiconque souhaite travailler avec ces grandes bases de données pour étudier l'évolution des protéines ou découvrir de nouveaux gènes », explique Altae-Tran.
Les chercheurs ajoutent que leurs résultats illustrent non seulement la diversité des systèmes CRISPR, mais également que la plupart sont rares et ne se trouvent que dans des bactéries inhabituelles. « Certains de ces systèmes microbiens se trouvaient exclusivement dans l'eau des mines de charbon », explique Kannan. « Si quelqu'un ne s'était pas intéressé à cela, nous n'aurions peut-être jamais vu ces systèmes. Élargir notre diversité d’échantillonnage est vraiment important pour continuer à élargir la diversité de ce que nous pouvons découvrir.
Ce travail a été soutenu par le Howard Hughes Medical Institute ; le centre thérapeutique moléculaire K. Lisa Yang et Hock E. Tan du MIT ; Donateurs de cadeaux thérapeutiques programmables du Broad Institute ; La Fondation Pershing Square, William Ackman et Neri Oxman ; James et Patricia Poitras; Fondation caritative BT ; Fondation familiale Asness ; Kenneth C. Griffin ; la famille Phillips ; David Cheng ; et Robert Metcalfe.