Clear Sky Science · zh
使用双向时序卷积神经网络的生成型可解释抗菌肽预测模型
用智能肽对抗感染与癌症
能够在不伤害健康组织的情况下杀死有害微生物和癌细胞的药物,是医学长期追求的目标。自然界已经产生了这样的分子:抗菌肽(antimicrobial peptides),它们是能在微生物膜上打洞并可调节免疫系统的短蛋白片段。但在数量巨大的可能氨基酸序列中寻找最有前景的肽,如同在大海捞针。本研究提出了一个强大的人工智能框架 GAC-BiTCNN-AMP,能够从大型生物学数据集中学习并预测哪些肽更可能成为有效的抗菌剂及潜在的抗癌治疗分子。

大自然的小小护卫者
抗菌肽(AMPs)是长度在10到50个氨基酸之间的短链,存在于人类、动物、植物和微生物中。它们作为第一道防线,通过与微生物表面结合、破坏其膜结构并触发细胞死亡发挥作用。许多抗菌肽还可以招募免疫细胞、影响炎症并重塑局部组织环境。具有非同寻常电荷和无序膜特性的癌细胞尤其容易受到这些肽的攻击。一些著名例子——包括蜜蜂毒肽(melittin)和防御素(defensins)——已显示出杀灭肿瘤细胞、使其对化疗或放疗更敏感并刺激针对肿瘤的免疫反应的能力。这种针对感染和癌症的双重作用使抗菌肽成为下一代精准药物的有吸引力候选者。
传统预测工具为何力不从心
尽管前景可观,但以计算方式识别新抗菌肽仍然困难。早期的计算模型主要依赖简单的序列模式和传统机器学习技术,常常忽略关于氨基酸如何在蛋白质中实现远距离相互作用、序列如何进化以及哪些细微的物理特征使肽既具活性又具选择性的更丰富信息。许多模型使用有限或冗余的训练数据,跳过系统的特征选择,并且可解释性不足——研究人员难以直接看出哪些输入特征驱动了预测。因此,它们的准确性和对新肽的泛化能力受限,也难以捕捉抗菌肽所能扮演的多样生物学角色。
从序列构建更丰富的图景
为弥补这些不足,作者首先从六个抗菌肽数据库和 UniProt 汇集了一个大型且经过精心过滤的数据集。通过严格的实验标准区分活性肽与非活性肽,并去除冗余以防止近亲序列夸大性能。接着,他们将每个肽序列转化为多种互补的数值视图。使用三种最先进的蛋白质语言模型——ProtTrans-T5、UniRep 和 ESM-2——生成高维嵌入,这些嵌入编码了上下文、远程依赖关系以及从百万级蛋白质中学习到的进化模式。一个定制描述子 PsePSSM-DCT 补充了关于序列每个位点在进化中如何趋向于突变以及这些模式沿序列如何平滑变化的信息。基于 XGBoost 的特征选择步骤随后将这些丰富的表示提炼为最具信息量的组件,去除噪声同时保留信号。

用于肽发现的混合 AI 引擎
该框架的核心是 GAC-BiTCNN 模型,一种为序列数据专门设计的混合深度学习架构。它结合了若干理念:生成对抗模块用于创建逼真的合成特征向量以平衡并丰富训练集;卷积层用于检测局部模体;双向时序卷积网络用于捕捉沿序列正反方向运行的模式;胶囊网络将相关特征分组为小向量“胶囊”,以保留层级关系。每种类型的特征——语言模型嵌入和进化描述子——在各自的通道中处理,随后融合。模型通过交叉验证进行训练和调优,并在一个完全独立、时间上隔离的较新肽条目测试集上评估,以最小化信息泄露。
性能、可解释性及其意义
GAC-BiTCNN-AMP 展现了突出性能:在交叉验证中准确率高达约97%并获得接近完美的曲线下面积得分,在独立测试集上准确率超过95%,优于多种现有的抗菌肽预测器,甚至超过仅微调的变换器基线。当不同特征类型组合使用时,结果进一步提升,表明各类特征对肽行为提供互补信息。为探查模型学到了什么,作者使用了 SHAP 这一流行的可解释性 AI 技术来衡量不同潜在特征对预测的影响。尽管这些特征较为抽象,分析证实模型依赖于一小组具有判别性的、生物学上有意义的模式,而非随机噪声。通俗地说,系统似乎“在看”对的信号类型。
这对未来药物意味着什么
对非专业读者来说,关键结论是:这项工作提供了一个高度准确、基于数据的筛选工具,用于在海量肽序列中快速挑选最有可能作为有效抗菌或抗癌候选的序列。通过融合生成式建模、多种蛋白质语言模型与可解释的深度学习,GAC-BiTCNN-AMP 提供了一种可扩展的方法来优先安排实验室验证候选,可能加速针对耐药感染和难治癌症的新疗法开发。未来的扩展不仅可能预测哪些肽有效,还能指导设计全新的序列,针对效力、选择性与安全性进行优化。
引用: Ali, F., Khalid, M., Alsini, R. et al. A generative explainable model for antimicrobial peptide prediction using bidirectional temporal convolutional neural network. Sci Rep 16, 13801 (2026). https://doi.org/10.1038/s41598-026-43370-6
关键词: 抗菌肽, 蛋白质语言模型, 深度学习, 精准肿瘤学, 药物发现