Clear Sky Science · zh

使用蛋白质语言模型的数据驱动大肠杆菌分类确定决定O血清型的基因

2026-03-19 · 返回目录

这对日常健康有何意义

当人们听到大肠杆菌（Escherichia coli 或E. coli）时，常会联想到食物中毒和受污染的水源。但并非所有大肠杆菌都具危险性，即便是有害菌株也有许多细微不同的“类型”，这些差别影响它们的传播方式和致病程度。本研究展示了一种最初用于理解蛋白质的人工智能技术，如何更准确且更公平地对这些细菌类型进行分类，尤其是传统工具常常漏掉的稀有类型。这有助于加快暴发追踪并为疫苗设计提供更可靠的信息。

把病原体看作多种不同面孔

医生和微生物学家将大肠杆菌划分为“血清型”，可以把它们比作由覆盖细胞表面的糖分子构成的不同面孔。其中一项重要成分称为O抗原，不同菌株之间变化很大——已知超过180种变体。确定患者或食品样本中的O型有助于追溯感染来源并判断是否与既往暴发相关。如今，实验室通常通过将细菌与抗体混合观察凝集反应，或通过将DNA与参考库比对来进行鉴定。但当菌株异常、基因有细微变异或参考数据库不完整时，这些方法会遇到困难。

教计算机“读”蛋白质

研究者采取了受语言技术启发的不同方法。现代“蛋白质语言模型”从数百万条蛋白序列中学习模式，就像文本模型从大量书面语句中学习一样。本研究中，他们使用了其中一种模型ESM-2，将每个细菌蛋白转换为数值指纹——一个提取其生化与进化特征的短向量。研究团队利用来自公开数据库的11000多份具有良好注释的大肠杆菌基因组，将相关基因分组为家族，把它们的蛋白质转换为这些指纹，然后训练机器学习算法直接从这些模式预测O型，而不是依赖简单的DNA比对。

寻找最有信息量的遗传线索

通过逐一扫描数千个基因家族，团队寻找那些既在许多基因组中普遍存在又对区分O型高度有信息量的基因。这一数据驱动的筛选突出了九个关键基因。其中一些已知参与构建或塑造细胞表面的糖衣，包括帮助组装黏性保护胶囊的基因和控制糖链长度的基因。另一些则是常被视为管家基因的基因，通常与氨基酸合成等功能相关，但其序列差异恰好与O型密切相关。组合起来，这些标记像一组互补线索：当某一基因对特定O型不够可靠时，其他基因常能填补空缺。

性能优于传统工具，尤其对稀有类型

仅使用这九个标记基因的指纹，名为随机森林（Random Forest）的机器学习方法在O型分类上达到了约93%的准确率——高于广泛使用的基于参考的方法。传统工具倾向于非常谨慎：当它们给出结果时通常正确，但常常无法对不常见或代表性不足的类型做出分类。相比之下，新模型即便在数据集中样本很少的稀有O型上仍保持强劲表现。详细比较显示，它能够成功识别出旧方法完全漏检的类型，使得其在常见与不常见菌株上的表现更为平衡。

这对疾病追踪与预防意味着什么

简言之，研究表明让人工智能“阅读”蛋白质序列可以揭示细微模式，帮助区分不同大肠杆菌类型，而不必过度依赖与现有数据库的完美匹配。作者强调这些标记仍需实验室进一步确认，且该方法更适合大规模监测而非床边诊断，但它提供了一种能快速扫描海量基因组的新工具。随着基因组测序在医院和食品安全实验室中日益普及，此类具备蛋白质感知能力的模型或将更容易发现新兴变体、优化疫苗并更好地理解为何某些大肠杆菌株会致命而另一些则无害。

引用: Jeong, H., Shin, H.D., Jung, J. et al. Data-driven classification of Escherichia coli using protein language model ascertains O-serotype determining genes. Sci Rep 16, 14232 (2026). https://doi.org/10.1038/s41598-026-40783-1

关键词: 大肠杆菌血清分型, 蛋白质语言模型, 细菌基因组学, 微生物学中的机器学习, 流行病学监测