Clear Sky Science · fr

Découvrir la diversité des PAM de Cas9 via le criblage métagénomique et l’apprentissage automatique

2026-02-08 · Retour à l’index

Pourquoi cela compte pour l’édition génétique future

Le CRISPR est devenu un symbole de l’édition génétique moderne, mais une règle discrète limite encore ses possibilités : chaque coupure dans l’ADN doit être adjacente à une courte séquence « autorisant » l’action. Ces courts motifs, appelés PAM, déterminent où l’enzyme Cas9 populaire peut ou ne peut pas agir. Cette étude montre comment le passage au crible d’immenses quantités d’ADN microbien, combiné à l’apprentissage automatique avancé, peut révéler une énorme diversité cachée de ces séquences « d’autorisation ». Cette nouvelle cartographie pourrait ouvrir beaucoup plus d’emplacements dans le génome humain à des thérapies précises et plus sûres.

Règles cachées qui guident les coupures CRISPR

Cas9 et les enzymes apparentées font partie d’un système immunitaire naturel présent chez les bactéries et les archées. Pour éviter de couper leur propre ADN, ces microbes font en sorte que les protéines Cas recherchent un PAM — une très courte séquence de lettres — à côté du site cible. Ce n’est que lorsque ce PAM est présent que Cas9 déroule l’ADN et permet à son ARN guide de vérifier une correspondance, déclenchant une coupure si tout concorde. Le problème pour la médecine est que les outils de laboratoire courants, comme le Cas9 standard de Streptococcus pyogenes, reconnaissent seulement des motifs PAM étroits. Si une mutation responsable d’une maladie ne possède pas la bonne séquence proche, les outils actuels ne peuvent tout simplement pas l’atteindre sans sacrifier la précision.

Explorer le monde microbien pour de nouvelles options

Les auteurs se sont donné pour objectif de cartographier systématiquement comment différentes protéines Cas9 reconnaissent différents PAM dans la nature. Ils ont exploré plus de 3,8 millions de génomes bactériens et d’archées, et plus de 7,4 millions de séquences virales et de plasmides qui infectent ou circulent entre microbes. En identifiant les arrays CRISPR, en les reliant aux gènes Cas9 proches, puis en mettant en correspondance les « souvenirs » (spacers) stockés avec les virus et plasmides envahisseurs, ils ont pu voir quels courts motifs d’ADN tendaient à flanquer des cibles réelles. À partir de cela, ils ont construit CRISPR-PAMdb, un catalogue public contenant 8003 groupes de Cas9, chacun associé à un profil PAM consensuel, et organisé sur un arbre évolutif qui met en évidence comment les enzymes Cas9 proches sur le plan évolutif ont tendance à partager des préférences PAM similaires tout en montrant une diversité globale remarquable.

Quand les données manquent, laissez le modèle apprendre

Même avec cette enquête massive, la plupart des protéines Cas9 identifiées ne disposaient pas d’assez de cibles virales correspondantes pour déterminer directement un PAM. Pour combler ces lacunes, l’équipe a construit un modèle d’apprentissage automatique appelé CICERO. CICERO utilise un puissant « modèle de langage » pour protéines qui a appris des motifs généraux de séquences d’acides aminés et le spécialise pour prédire, pour une protéine Cas9 donnée, la probabilité que chaque lettre d’ADN apparaisse à chacune des dix positions du PAM. Le modèle a été entraîné sur les profils PAM de CRISPR-PAMdb puis testé à la fois par validation croisée et sur 79 enzymes Cas9 dont les PAM avaient été mesurés expérimentalement, montrant une forte concordance entre prédiction et réalité.

Savoir à quel point on peut être confiant

Une caractéristique clé de CICERO est qu’il ne se contente pas de proposer un PAM — il estime aussi la fiabilité de chaque proposition. Après avoir appris à prédire les motifs PAM, les chercheurs ont entraîné un second réseau léger qui prend la même séquence Cas9 et apprend à prévoir la précision attendue de la prédiction PAM. Des scores de confiance plus élevés corrèlent fortement avec une précision réelle accrue. En utilisant ce filtre de confiance, l’équipe a étendu les annotations PAM à plus de 50 000 protéines Cas9 supplémentaires, avec plus de 17 000 prédictions classées comme haute confiance. Cela élargit considérablement le catalogue de variantes Cas9 dont les règles de ciblage sont raisonnablement bien comprises.

Ce que cela signifie pour le traitement des maladies génétiques

Pour montrer l’importance de ces nouvelles ressources, les auteurs ont examiné des dizaines de milliers de mutations mononucléotidiques liées à des maladies dans la base de données ClinVar qui pourraient, en principe, être corrigées à l’aide d’éditeurs de bases — outils qui changent une lettre d’ADN sans couper les deux brins. Ils ont constaté que l’enzyme Cas9 standard n’atteint qu’environ la moitié de ces sites en raison de ses exigences strictes en matière de PAM. Lorsqu’ils ont inclus des homologues de Cas9 provenant de CRISPR-PAMdb et des prédictions CICERO à haute confiance qui reconnaissent un ensemble plus large mais toujours spécifique de séquences voisines, presque toutes ces mutations sont devenues théoriquement accessibles sans relâcher le ciblage au point de perdre en précision.

Une boîte à outils élargie pour une chirurgie de l’ADN précise

En termes simples, ce travail construit deux éléments : une carte publique gigantesque reliant des milliers de protéines Cas9 naturelles aux courts motifs d’ADN qu’elles préfèrent, et un guide IA capable de prédire ces préférences pour beaucoup d’autres enzymes simplement à partir de leurs séquences. Ensemble, ils transforment le monde microbien en une riche bibliothèque de pièces pour les éditeurs génétiques futurs. Au fur et à mesure que les chercheurs affineront et testeront ces variantes Cas9 en laboratoire, les cliniciens pourraient disposer d’outils plus sûrs et plus polyvalents capables d’atteindre des mutations responsables de maladies auparavant inaccessibles, rapprochant ainsi la chirurgie génomique véritablement précise d’une application clinique.

Citation: Fang, T., Bogensperger, L., Feer, L. et al. Uncovering Cas9 PAM diversity through metagenomic mining and machine learning. Nat Commun 17, 2510 (2026). https://doi.org/10.1038/s41467-026-69098-5

Mots-clés: CRISPR-Cas9, diversité des PAM, métagénomique, apprentissage automatique, édition du génome