Clear Sky Science · zh

通过宏基因组挖掘和机器学习揭示Cas9 PAM多样性

· 返回目录

这对未来基因编辑为何重要

CRISPR已成为现代基因编辑的代名词,但有一条默默存在的规则仍然限制着它的能力:每一次对DNA的切割都必须位于一个简短的“许可单”序列旁边。这些被称为PAM的短序列决定了流行的Cas9酶能否作用于某个位点。本研究展示了如何通过在庞大的微生物DNA中筛选,并结合先进的机器学习,揭示这些许可单的巨大隐性多样性。这张新图谱可能为人类基因组中更多区域打开通路,从而支持更精确、更安全的疗法。

引导CRISPR切割的隐性规则

Cas9及其相关酶是细菌和古细菌中天然免疫系统的一部分。为了避免切割自身DNA,这些微生物让Cas蛋白寻找一个PAM——位于目标位点旁边的极短字母序列。仅当该PAM存在时,Cas9才会解开DNA并让引导RNA核对是否匹配,如果完全匹配便触发切割。对医学而言的难点在于,常用的实验室工作马,例如来自化脓性链球菌(Streptococcus pyogenes)的标准Cas9,只识别有限的PAM模式。如果致病突变附近没有合适的序列,如今的工具在不牺牲准确性的情况下往往无法触及它。

Figure 1
图1。

在微生物世界中挖掘新选项

研究人员着手系统地绘制不同Cas9蛋白在自然界中识别不同PAM的方式。他们检索了超过380万条细菌和古细菌基因组,以及超过740万条感染或在微生物之间移动的病毒和质粒序列。通过识别CRISPR阵列、将其与附近的Cas9基因关联,并将存储的“记忆”间隔序列与入侵的病毒和质粒匹配,他们能够观察到哪些短DNA模式倾向于出现在真实靶点的旁侧。基于此,他们建立了CRISPR-PAMdb——一个包含8003个Cas9分组的公共目录,每个分组都配有共识PAM谱,并按进化树组织,突出显示了亲缘关系接近的Cas9酶通常共享相似的PAM偏好,同时总体上仍表现出显著多样性。

当数据不足时,让模型学习

即便有如此大规模的调查,他们发现的大多数Cas9蛋白仍缺乏足够的匹配病毒靶点以直接读出PAM。为填补这些空白,团队构建了名为CICERO的机器学习模型。CICERO利用一个强大的蛋白质“语言模型”,该模型已学习到氨基酸序列的一般模式,并将其微调以预测对于任一给定Cas9蛋白,PAM中十个位置上每个碱基出现的可能性。该模型以CRISPR-PAMdb的PAM谱进行训练,并通过交叉验证以及对79个已通过实验测定PAM的Cas9酶进行测试,预测结果与实测数据达成了良好一致。

Figure 2
图2。

知道该有多大信心

CICERO的一个关键特性是它不仅仅猜测PAM——还评估每次猜测的可信度。在学会预测PAM模式后,研究者训练了第二个轻量级网络,该网络以相同的Cas9序列为输入,学习预测PAM预测的准确性。更高的置信度评分与更高的实际准确性强相关。利用该置信度筛选,团队将PAM注释扩展到了另外超过5万个Cas9蛋白,其中超过1.7万个预测被归类为高置信度。这大大扩展了具有相对明确靶向规则的Cas9变体选项。

这对治疗遗传病意味着什么

为说明这些新资源的重要性,作者检查了ClinVar数据库中成千上万条与疾病相关的单碱基突变,这些突变原则上可以用碱基编辑器纠正——碱基编辑器能在不切断双链的情况下改变一个DNA碱基。他们发现,由于严格的PAM要求,标准的Cas9酶只能访问大约一半此类位点。当他们引入CRISPR-PAMdb中的Cas9亲缘酶和来自CICERO高置信度预测的变体,这些酶识别更广但仍具特异性的邻近序列时,几乎所有这些突变在理论上都变得可及,而无需放宽靶向规则到会丧失精确性的程度。

为精确的DNA手术提供更大的工具箱

简而言之,这项工作构建了两样东西:一个巨大的公共地图,将数千种天然Cas9蛋白与它们偏好的短DNA模式链接起来;以及一个AI向导,可以仅从序列预测更多酶的这些偏好。二者合力将微生物世界变成了未来基因编辑器的丰富零件库。随着研究人员在实验室中细化并测试这些Cas9变体,临床医师可能会获得更安全、更灵活的工具,从而触及先前无法触及的致病突变,使真正的精准基因组手术更近一步成为现实。

引用: Fang, T., Bogensperger, L., Feer, L. et al. Uncovering Cas9 PAM diversity through metagenomic mining and machine learning. Nat Commun 17, 2510 (2026). https://doi.org/10.1038/s41467-026-69098-5

关键词: CRISPR-Cas9, PAM 多样性, 宏基因组学, 机器学习, 基因组编辑