Clear Sky Science · zh

通过宏基因组挖掘和机器学习揭示Cas9 PAM多样性

2026-02-08 · 返回目录

这对未来基因编辑为何重要

CRISPR已成为现代基因编辑的代名词，但有一条默默存在的规则仍然限制着它的能力：每一次对DNA的切割都必须位于一个简短的“许可单”序列旁边。这些被称为PAM的短序列决定了流行的Cas9酶能否作用于某个位点。本研究展示了如何通过在庞大的微生物DNA中筛选，并结合先进的机器学习，揭示这些许可单的巨大隐性多样性。这张新图谱可能为人类基因组中更多区域打开通路，从而支持更精确、更安全的疗法。

引导CRISPR切割的隐性规则

Cas9及其相关酶是细菌和古细菌中天然免疫系统的一部分。为了避免切割自身DNA，这些微生物让Cas蛋白寻找一个PAM——位于目标位点旁边的极短字母序列。仅当该PAM存在时，Cas9才会解开DNA并让引导RNA核对是否匹配，如果完全匹配便触发切割。对医学而言的难点在于，常用的实验室工作马，例如来自化脓性链球菌（Streptococcus pyogenes）的标准Cas9，只识别有限的PAM模式。如果致病突变附近没有合适的序列，如今的工具在不牺牲准确性的情况下往往无法触及它。

在微生物世界中挖掘新选项

研究人员着手系统地绘制不同Cas9蛋白在自然界中识别不同PAM的方式。他们检索了超过380万条细菌和古细菌基因组，以及超过740万条感染或在微生物之间移动的病毒和质粒序列。通过识别CRISPR阵列、将其与附近的Cas9基因关联，并将存储的“记忆”间隔序列与入侵的病毒和质粒匹配，他们能够观察到哪些短DNA模式倾向于出现在真实靶点的旁侧。基于此，他们建立了CRISPR-PAMdb——一个包含8003个Cas9分组的公共目录，每个分组都配有共识PAM谱，并按进化树组织，突出显示了亲缘关系接近的Cas9酶通常共享相似的PAM偏好，同时总体上仍表现出显著多样性。

当数据不足时，让模型学习

即便有如此大规模的调查，他们发现的大多数Cas9蛋白仍缺乏足够的匹配病毒靶点以直接读出PAM。为填补这些空白，团队构建了名为CICERO的机器学习模型。CICERO利用一个强大的蛋白质“语言模型”，该模型已学习到氨基酸序列的一般模式，并将其微调以预测对于任一给定Cas9蛋白，PAM中十个位置上每个碱基出现的可能性。该模型以CRISPR-PAMdb的PAM谱进行训练，并通过交叉验证以及对79个已通过实验测定PAM的Cas9酶进行测试，预测结果与实测数据达成了良好一致。

知道该有多大信心

CICERO的一个关键特性是它不仅仅猜测PAM——还评估每次猜测的可信度。在学会预测PAM模式后，研究者训练了第二个轻量级网络，该网络以相同的Cas9序列为输入，学习预测PAM预测的准确性。更高的置信度评分与更高的实际准确性强相关。利用该置信度筛选，团队将PAM注释扩展到了另外超过5万个Cas9蛋白，其中超过1.7万个预测被归类为高置信度。这大大扩展了具有相对明确靶向规则的Cas9变体选项。

这对治疗遗传病意味着什么

为说明这些新资源的重要性，作者检查了ClinVar数据库中成千上万条与疾病相关的单碱基突变，这些突变原则上可以用碱基编辑器纠正——碱基编辑器能在不切断双链的情况下改变一个DNA碱基。他们发现，由于严格的PAM要求，标准的Cas9酶只能访问大约一半此类位点。当他们引入CRISPR-PAMdb中的Cas9亲缘酶和来自CICERO高置信度预测的变体，这些酶识别更广但仍具特异性的邻近序列时，几乎所有这些突变在理论上都变得可及，而无需放宽靶向规则到会丧失精确性的程度。

为精确的DNA手术提供更大的工具箱

简而言之，这项工作构建了两样东西：一个巨大的公共地图，将数千种天然Cas9蛋白与它们偏好的短DNA模式链接起来；以及一个AI向导，可以仅从序列预测更多酶的这些偏好。二者合力将微生物世界变成了未来基因编辑器的丰富零件库。随着研究人员在实验室中细化并测试这些Cas9变体，临床医师可能会获得更安全、更灵活的工具，从而触及先前无法触及的致病突变，使真正的精准基因组手术更近一步成为现实。

引用: Fang, T., Bogensperger, L., Feer, L. et al. Uncovering Cas9 PAM diversity through metagenomic mining and machine learning. Nat Commun 17, 2510 (2026). https://doi.org/10.1038/s41467-026-69098-5

关键词: CRISPR-Cas9, PAM 多样性, 宏基因组学, 机器学习, 基因组编辑