Clear Sky Science · zh

使用蛋白质语言模型的数据驱动大肠杆菌分类确定决定O血清型的基因

· 返回目录

这对日常健康有何意义

当人们听到大肠杆菌(Escherichia coliE. coli)时,常会联想到食物中毒和受污染的水源。但并非所有大肠杆菌都具危险性,即便是有害菌株也有许多细微不同的“类型”,这些差别影响它们的传播方式和致病程度。本研究展示了一种最初用于理解蛋白质的人工智能技术,如何更准确且更公平地对这些细菌类型进行分类,尤其是传统工具常常漏掉的稀有类型。这有助于加快暴发追踪并为疫苗设计提供更可靠的信息。

把病原体看作多种不同面孔

医生和微生物学家将大肠杆菌划分为“血清型”,可以把它们比作由覆盖细胞表面的糖分子构成的不同面孔。其中一项重要成分称为O抗原,不同菌株之间变化很大——已知超过180种变体。确定患者或食品样本中的O型有助于追溯感染来源并判断是否与既往暴发相关。如今,实验室通常通过将细菌与抗体混合观察凝集反应,或通过将DNA与参考库比对来进行鉴定。但当菌株异常、基因有细微变异或参考数据库不完整时,这些方法会遇到困难。

教计算机“读”蛋白质

研究者采取了受语言技术启发的不同方法。现代“蛋白质语言模型”从数百万条蛋白序列中学习模式,就像文本模型从大量书面语句中学习一样。本研究中,他们使用了其中一种模型ESM-2,将每个细菌蛋白转换为数值指纹——一个提取其生化与进化特征的短向量。研究团队利用来自公开数据库的11000多份具有良好注释的大肠杆菌基因组,将相关基因分组为家族,把它们的蛋白质转换为这些指纹,然后训练机器学习算法直接从这些模式预测O型,而不是依赖简单的DNA比对。

Figure 1
Figure 1.

寻找最有信息量的遗传线索

通过逐一扫描数千个基因家族,团队寻找那些既在许多基因组中普遍存在又对区分O型高度有信息量的基因。这一数据驱动的筛选突出了九个关键基因。其中一些已知参与构建或塑造细胞表面的糖衣,包括帮助组装黏性保护胶囊的基因和控制糖链长度的基因。另一些则是常被视为管家基因的基因,通常与氨基酸合成等功能相关,但其序列差异恰好与O型密切相关。组合起来,这些标记像一组互补线索:当某一基因对特定O型不够可靠时,其他基因常能填补空缺。

性能优于传统工具,尤其对稀有类型

仅使用这九个标记基因的指纹,名为随机森林(Random Forest)的机器学习方法在O型分类上达到了约93%的准确率——高于广泛使用的基于参考的方法。传统工具倾向于非常谨慎:当它们给出结果时通常正确,但常常无法对不常见或代表性不足的类型做出分类。相比之下,新模型即便在数据集中样本很少的稀有O型上仍保持强劲表现。详细比较显示,它能够成功识别出旧方法完全漏检的类型,使得其在常见与不常见菌株上的表现更为平衡。

Figure 2
Figure 2.

这对疾病追踪与预防意味着什么

简言之,研究表明让人工智能“阅读”蛋白质序列可以揭示细微模式,帮助区分不同大肠杆菌类型,而不必过度依赖与现有数据库的完美匹配。作者强调这些标记仍需实验室进一步确认,且该方法更适合大规模监测而非床边诊断,但它提供了一种能快速扫描海量基因组的新工具。随着基因组测序在医院和食品安全实验室中日益普及,此类具备蛋白质感知能力的模型或将更容易发现新兴变体、优化疫苗并更好地理解为何某些大肠杆菌株会致命而另一些则无害。

引用: Jeong, H., Shin, H.D., Jung, J. et al. Data-driven classification of Escherichia coli using protein language model ascertains O-serotype determining genes. Sci Rep 16, 14232 (2026). https://doi.org/10.1038/s41598-026-40783-1

关键词: 大肠杆菌血清分型, 蛋白质语言模型, 细菌基因组学, 微生物学中的机器学习, 流行病学监测