Clear Sky Science · zh

IL2Pepscan:用于预测诱导 IL-2 肽并在全球病毒蛋白质组中识别它们的机器学习框架

· 返回目录

用微小蛋白片段教会免疫系统

现代疫苗和抗癌疗法越来越依赖于精确地调动免疫系统,而不是用药物对疾病进行全面轰炸。本研究探讨如何挑选被称为肽的微小蛋白片段,以激活一种强效免疫信使——白细胞介素‑2(IL‑2)。通过使用先进的计算模型,作者在已知的免疫数据和成千上万种病毒的蛋白目录中搜索,试图在分子干草堆中找到能够帮助设计更好疫苗和免疫疗法的肽“针”。

IL-2 对健康与疾病为何重要

IL‑2 是一种小型信号分子,像生长因子一样作用于关键的免疫细胞——T 细胞。当这些细胞首次遇到威胁(例如病毒或癌细胞)时,它们可以释放 IL‑2,进而促进 T 细胞增殖、分化并记忆入侵者。IL‑2 还帮助维持调节性 T 细胞,防止免疫系统攻击自身组织。由于这一双重作用,IL‑2 已被用作治疗黑色素瘤等癌症的药物,并被用于自身免疫疾病的研究。但直接给药 IL‑2 对患者可能造成较大副作用,因此越来越多人关注设计安全的肽,通过更可控、定向的方式诱导体内产生 IL‑2。

Figure 1
Figure 1.

学习能诱导 IL-2 肽的“风格”

研究人员从数千条已在实验中测试并标注为诱导或不诱导 IL‑2 的肽序列开始。他们清理了数据集以去除重复项、非典型构建单元以及过短或过长的肽,最终得到超过 6000 个表征良好的样本。通过检查构成这些肽的氨基酸,他们发现两类肽存在明显差异:诱导 IL‑2 的肽往往富含疏水性(疏水、排水)氨基酸,如亮氨酸和丙氨酸,而不诱导的肽则偏向更多极性和带电残基。某些短序列模式(或基序),例如“LEGS”和“ALEG”,仅出现在诱导 IL‑2 的肽中,提示存在可能帮助触发免疫激活的结构性特征。

训练机器识别免疫增强模式

为了将这些模式转化为实用的预测工具,团队将每条肽转换为数值描述,捕捉其组成和氨基酸顺序。他们测试了一系列机器学习方法——包括诸如随机森林、支持向量机和提升树等流行算法,以及常用于语言和图像任务的深度学习架构。他们还利用了一个大型蛋白“语言模型”ProtBERT(原先在数亿条蛋白序列上训练),并对其进行微调以更好识别与 IL‑2 相关的信号。经过交叉验证和独立测试集的广泛评估,表现最佳的是一种称为 Extra Trees 的模型,结合了一组名为二肽偏离期望均值(DDE)的特征。该模型达到了接近 80% 的准确率和较强的相关性评分,优于多种深度学习方法。

Figure 2
Figure 2.

在病毒世界中扫描隐藏的免疫触发物

凭借他们的最佳模型,作者将搜索范围大幅扩大。他们收集了来自超过 14,000 种病毒的参考蛋白序列,将这些蛋白切分成大约 1.56 亿条重叠肽,并用模型预测哪些肽可能诱导 IL‑2。在得分最高的候选中,存在来自多个知名病毒科的肽,包括黄病毒科(如西尼罗河病毒、寨卡、黄热和丙型肝炎病毒),以及流感和 SARS‑CoV‑2。许多有前景的肽来自病毒包膜或核衣壳蛋白——这些类型的蛋白在其他研究中已显示能在动物中引发 IL‑2 反应。该模型还标识出由噬菌体(感染细菌的病毒)编码的潜在 IL‑2 诱导肽,暗示免疫相关序列的分布更加广泛。

从算法到可访问工具

为了让他们的成果在计算实验室之外可用,作者构建了一个名为 IL2Pepscan 的公共网络服务器。研究人员可以将肽或蛋白序列粘贴到网站上以估算其诱导 IL‑2 的潜力,通过突变设计新变体、扫描整条蛋白以寻找热点,或搜索已知的 IL‑2 相关基序。尽管该研究尚未对每个预测肽进行实验验证,但与现有实验结果的一致性表明,IL2Pepscan 能可靠地缩小需进一步测试的候选范围。对非专业读者而言,可得结论是:经精心训练的算法可以从庞大的生物数据集中筛选出可能有助于将来疫苗和免疫疗法以更强且更精确的方式唤起免疫系统的小型蛋白片段。

引用: Arora, P., Abhigyan, R., Periwal, N. et al. IL2Pepscan: A machine learning framework for predicting IL-2 inducing peptides and their identification across global viral proteomes. Sci Rep 16, 6701 (2026). https://doi.org/10.1038/s41598-026-35977-6

关键词: 白细胞介素-2, 肽疫苗, 机器学习, 病毒蛋白质组, 免疫疗法