Clear Sky Science · zh
UTR-DynaPro:一种用于解码5′UTR调控机制的CNN–transformer多模态语言模型
RNA 的前端如何塑造生命与医学
细胞构建蛋白质的指令写在信使RNA序列中,但并非序列的每一部分都会被翻译成蛋白。位于最前端的一段,被称为5′非翻译区(5′UTR),作用更像一个控制旋钮而非蓝图。该处的微小改变可能显著改变蛋白质产量,影响从疫苗效果到基因治疗能否提供足够治疗蛋白的各个方面。本文介绍了一种新的人工智能模型 UTR-DynaPro,旨在比以往方法更准确地读取和解释这一控制旋钮。
编码之前的安静控制区
在mRNA开始编码蛋白之前,5′非翻译区(5′UTR)帮助决定蛋白质的翻译效率。该区的序列与结构会影响细胞的翻译机器——核糖体能否有效附着、沿序列扫描并顺利起始工作。诸如区域长度、A、U、G、C碱基比例以及上游小起始信号的存在等特征,都可以加速或减慢翻译过程。这些影响在实际应用中至关重要:在mRNA疫苗中,经过优化的5′UTR可以在更小剂量下产生更强的免疫反应;在遗传疾病中,该处的破坏性变化即便在主要基因编码区完好时也能显著降低蛋白产量。

为何以往预测工具难以为继
研究者已转向深度学习来预测特定5′UTR的行为,希望设计出产生合适蛋白量的序列。然而早期模型往往只关注非常短的模式或宏观的长程关系,而不能同时兼顾两者。有些模型在实验条件从一种细胞类型或实验方案变更时表现欠佳,且许多模型忽视诸如RNA折叠能量或蛋白编码区长度等重要辅助信息。因此,其准确度已趋于瓶颈,限制了我们系统性地为疫苗、基因治疗和工业蛋白生产设计5′UTR的能力。
用于识别RNA信号的双通路阅读器
UTR-DynaPro通过结合两种互补的5′UTR读取方式来弥补这些不足。一条通路基于卷积网络,擅长发现短小、局部的模式——类似RNA中反复出现、充当开关的“词语”。另一条通路由transformer层构建,善于捕捉远程相互作用,例如序列不同部位如何折叠在一起或与随后编码区协同工作。随后,一个动态“门”按序列位置决定应给予局部信息与全局信息多大权重。除了这些主通路之外,模型还融入额外信号,包括RNA的折叠紧密程度、蛋白编码段的长度以及是否存在某些上游小阅读框。所有这些成分共同使UTR-DynaPro能够构建出关于5′UTR如何调控蛋白产生的丰富图景。

对模型的检验
作者在大规模且多样的数据集上训练并评估了UTR-DynaPro:包括来自人类及其他物种的合成与天然5′UTR,以及来自多种人类细胞类型和组织的测量数据。研究集中于三个相关的输出:平均核糖体负载(每条mRNA平均有多少核糖体)、翻译效率(每个RNA分子产生多少蛋白)和整体表达水平。在所有这些任务上,新模型持续超越多种领先方法,有时将预测误差降低近百分之十。精心设计的“消融”测试——移除或简化架构的部分——显示从双通路设计到专家混合子模块以及实验条件输入的每个主要组件均能显著提升性能。对融合门的可视化进一步表明,模型沿序列并在不同细胞类型间会调整对局部与全局线索的依赖,呼应了科学家对该区域复杂生物逻辑的预期。
从更好的预测走向更好的设计
对非专业读者而言,核心信息是:这项工作提供了一种更强大且更灵活的方式来读取mRNA前端那微妙的控制指令。通过更准确地预测5′UTR的变化将如何改变蛋白产量,UTR-DynaPro可以指导合成序列的设计,以按需提升或调节产量——从更强效的疫苗、更安全的基因治疗到更优的工业酶。同时,其可解释的架构帮助研究者发现已知的以及先前隐藏的调控模式。在实践层面上,该模型使我们更接近将5′UTR视为一个可编程的基因表达控制旋钮,能够以自信而非反复试验的方式进行调节。
引用: Shen, H., Liu, S., Guo, F. et al. UTR-DynaPro: a CNN–transformer multimodal language model for decoding 5′UTR regulatory mechanisms. Sci Rep 16, 10779 (2026). https://doi.org/10.1038/s41598-026-42175-x
关键词: 5′UTR 调控, mRNA 翻译, 面向生物学的深度学习, 基因表达控制, mRNA 疫苗设计