Clear Sky Science · zh

用于mRNA可变剪接分析的机器学习框架识别结直肠腺癌进展的特征

· 返回目录

这项研究对患者为何重要

结直肠癌是最常见且致死率较高的癌症之一,但医生仍然难以预测哪些患者的肿瘤会长期受控,哪些会在治疗后复发。这项研究提出了一种读取肿瘤RNA中隐含信号的新方法——RNA 是细胞制造蛋白质时使用的信息——并利用机器学习将这些信号转化为一个简单的风险评分,可能有助于为每位患者量身定制治疗强度。

Figure 1
Figure 1.

癌基因中的隐秘剪切与编辑

我们的基因并不是以固定方式被读取。当细胞把DNA转录为RNA时,可以以不同组合剪切和粘贴RNA片段,这一过程称为可变剪接。这种编辑允许单个基因产生多种蛋白质形式,像同一套工具箱中不同用途的工具。在健康细胞中,这种灵活性受到严格控制。但在癌症中,剪接的过程可能出错,产生有助于肿瘤生长、扩散和耐药的蛋白质变体。作者推测,肿瘤中这些RNA编辑的模式可能包含关于癌症随时间表现的重要线索。

把RNA模式转化为风险评分

研究人员分析了来自癌症基因组图谱(The Cancer Genome Atlas)266例结直肠腺癌患者肿瘤的RNA测序数据,以及另一项独立研究的348例患者数据。对于每个肿瘤,他们量化了特定剪接选择被使用的频率,用介于0到1之间的数值进行总结。随后构建了一个分步的机器学习流程:首先筛选成千上万的剪接事件,看是否与患者无进展生存期有关,然后在避免冗余和重叠信号的情况下对候选事件进行精细缩减。最终得到的是由仅五个特定剪接事件组成的紧凑“特征”,它们的综合表现最能反映患者癌症是较早还是较晚发生进展。

将患者分为低风险和高风险组

基于这五个事件的特征,团队为每位患者定义了一个数值风险评分,通过将剪接测量值按其与进展关系的强度加权相加得到。偏向三种剪接模式的肿瘤的患者预后较差,而另外两种模式则与更佳结局相关。该评分将患者清晰地分为低风险和高风险组:在原始队列和独立验证组中,评分较高者的癌症进展明显更早。当研究者绘制无进展时间曲线时,两个曲线明显分离,表明这小组RNA编辑在数百名个体中捕捉到了有意义的肿瘤行为差异。

Figure 2
Figure 2.

超越标准分期与已知标志物

目前医生主要依赖肿瘤分期、年龄及其他临床特征来评估风险,有时也参考特定的DNA变化或基因表达水平。研究人员检验了他们基于剪接的评分是否在这些既有指标之上提供了额外信息。通过时变准确性测试,他们表明仅依靠分期、年龄和性别的预测在加入剪接风险评分后明显改善。他们还将该评分与结直肠癌中数十个已知分子标志物以及几种常见统计建模方法进行了比较。在两个主要患者群体中,这一由五个事件组成的剪接特征要么与这些替代方法相当,要么优于它们,并在与这些方法联合使用时提高了预测性能,表明它捕获了其他标志物未能反映的信息。

这对未来护理的潜在意义

对普通读者而言,关键信息是肿瘤“编辑”其RNA的方式可以揭示其危险程度。这项研究表明,仅追踪结直肠肿瘤中五处特定的RNA编辑就能将患者分为在无进展生存方面有显著差异的群体。尽管这一工作仍需转化为实用的实验室检测并在前瞻性临床试验中评估,但它指向了这样一种未来:医生可在诊断时使用该评分来决定谁需要更积极的治疗和更密切的随访,谁可能安全地避免过度治疗。更广泛地说,它为在其他癌症中挖掘RNA剪接模式以精化预后和指导真正个性化治疗提供了可重复使用的框架。

引用: Maimekov, U., Nosrati, M., Mahmoud, A. et al. Machine learning framework for mRNA alternative splicing analysis identifies a signature of progression in colorectal adenocarcinoma. Sci Rep 16, 7106 (2026). https://doi.org/10.1038/s41598-026-35903-w

关键词: 结直肠癌, 可变剪接, RNA 测序, 机器学习, 癌症预后