Clear Sky Science · zh

通过关键蛋白和大型语言模型实现高分辨率噬菌体-宿主配对

· 返回目录

在我们肠道中追踪隐形病毒

每个人的肠道中都携带着数以万亿计的细菌及其病毒,其中许多仍未被识别。这些隐匿的病毒可能影响我们的健康,从消化到肥胖,但科学家常常不知道哪种病毒感染哪种细菌。本研究介绍了 VirHost Hunter——一种新的数据驱动工具,利用仅由少数关键病毒蛋白就能将肠道病毒与其细菌宿主关联起来,为更精确地研究并潜在地调控微生物组打开了大门。

一种新的病毒与细菌配对方法

传统将病毒与其细菌宿主配对的方法依赖完整的病毒基因组或诸如 CRISPR 标记之类的特殊遗传线索。这些方法仅在存在合适参考数据时有效,且容易遗漏大量病毒序列,通常称为病毒暗物质。作者改为聚焦两类在感染过程中至关重要的病毒蛋白:尾部蛋白,帮助病毒识别并附着到细菌;以及溶菌酶,帮助其破坏细胞壁。通过集中于这些蛋白,他们避免了无关基因的噪音,并能在仅有病毒基因组片段时仍然有效。

Figure 1. 关键病毒蛋白如何帮助将隐匿的肠道病毒与其细菌宿主配对,从而重塑我们对微生物组的认识。
Figure 1. 关键病毒蛋白如何帮助将隐匿的肠道病毒与其细菌宿主配对,从而重塑我们对微生物组的认识。

教会计算机“读”蛋白和 DNA 的语言

为了从这些蛋白中读取意义,团队采用了最初为人类语言开发的机器学习技术。他们使用名为 ProtT5 的蛋白质语言模型,将氨基酸序列转换为密集的数值表示,捕捉隐藏的功能相似性,即使序列起初看起来差异很大。同时,他们对编码这些蛋白的 DNA 进行分析,采用了 Vision Transformer 模型和多路径卷积网络,共同提取诸如典型密码子使用和沿 DNA 的长程模式等特征。随后将这些蛋白和 DNA 信号融合,并输入到一对分类器中,共同决定给定病毒最可能感染的细菌科、属或种。

更清晰、更深入的宿主预测

研究人员在多个噬菌体基准数据集上测试了 VirHost Hunter。他们表明,结合蛋白和 DNA 信息明显优于单独使用任何一种信息,并且聚焦尾部蛋白和溶菌酶比使用诸如衣壳或包装酶等其他病毒部件能获得更好的预测。在不同细菌分类层级上,VirHost Hunter 比现有的无比对工具更准确,即便在病毒之间仅有低序列相似性时仍然可靠。在对具有实验验证宿主的培养肠道噬菌体评估时,其在精确率上优于标准的基于 CRISPR 的方法,且两种方法结合使用能进一步提升结果。

揭示与疾病相关的隐匿肠道病毒

借助已校准的模型,团队将 VirHost Hunter 应用于一个大型的人类肠道噬菌体数据库(此前其条目中不足三分之一有宿主信息)。通过扫描尾部和溶菌酶蛋白,他们几乎将被赋予宿主的噬菌体比例翻倍,并发现了可攻击 29 个肠道细菌科的病毒,其中许多与慢性病(如炎症性肠病、心脏病和肥胖)相关。值得注意的是,他们发现了数十个此前未被描述的、预测会感染 Akkermansia muciniphila 和 Prevotella copri 等细菌的噬菌体,这些细菌与自身免疫和代谢性疾病有关,但此前缺乏已知的噬菌体。

Figure 2. 通过尾部蛋白和溶菌酶识别并破坏特定靶向细菌,逐步呈现肠道病毒作用的过程视图。
Figure 2. 通过尾部蛋白和溶菌酶识别并破坏特定靶向细菌,逐步呈现肠道病毒作用的过程视图。

从数字预测到靶向抗微生物制剂

为了将这些预测转化为实用资源,作者构建了一个肠道噬菌体溶菌酶数据库,包含超过十万条已映射肠道宿主的溶菌酶。他们检查了这些溶菌酶的结构、稳定性和多样性,揭示了许多不同的簇和负责破坏细胞壁的保守基序。作为概念验证,他们挑选了一个被预测能特异性靶向与肥胖相关的细菌 Megamonas 的溶菌酶。合成该蛋白并在实验室测试后,他们显示其能有效杀死 Megamonas,同时对其他常见肠道微生物和益生菌株影响甚微,说明基于模型挖掘的病毒暗物质可以产生高度选择性的工具。

这对未来微生物组护理的重要性

这项工作表明,只需几种关键蛋白和现代机器学习方法,就能将大量未知肠道病毒与其细菌宿主联系起来。通过阐明微生物组中“谁感染谁”,VirHost Hunter 提升了我们探索肠道病毒多样性的能力,并为设计精确干预(如定制溶菌酶)提供了可能,使我们能够在不扰乱更广泛微生物群落的前提下选择性遏制有害细菌。尽管在临床应用前仍需更多测试和工程优化,但该框架为将隐藏的病毒序列转化为研究和未来调控我们内在生态系统的靶向策略提供了强有力的路线图。

引用: Du, Z., Li, M., Lin, K. et al. High-resolution phage-host assignment through key proteins using large language models. Nat Commun 17, 4439 (2026). https://doi.org/10.1038/s41467-026-70613-x

关键词: 肠道病毒群, 噬菌体, 机器学习, 噬菌体溶菌酶, 微生物组疗法