Clear Sky Science · zh

使用常规临床数据的可解释机器学习模型用于肝细胞癌早期复发预测

· 返回目录

这对患者和家庭为何重要

对于接受肝癌切除手术的人来说,最迫切的问题之一是“癌症会很快复发吗?”目前,医生通常只能给出粗略估计,常基于将许多不同患者视为同类的广泛分期系统。本研究提出了一种新方法,利用医院已常规收集的信息——常规血液检查和影像结果——结合可解释的人工智能,为每位患者提供更清晰、更个性化的短期复发风险评估。

一种常见但复发率顽固的癌症

肝细胞癌是最常见的原发性肝癌类型,也是全球癌症死亡的重要原因。即便外科医生将可见肿瘤完全切除,超过70%的患者在五年内仍会出现疾病复发。早期复发——大约在术后两年内——尤为令人担忧,因为它通常反映出已在肝内播散的侵袭性癌细胞,并显著恶化生存率。现有的临床分期系统,例如TNM或巴塞罗那肝癌分期(BCLC),能够将患者大致划分为广泛类别,但常常无法准确识别谁真正面临早期复发的高风险。

将日常检测结果转化为风险评分

研究者利用了2014年至2024年间在中国两家大型医院接受所谓根治性肝切除手术的1,120名患者的病历记录。他们仅关注术前可获得的信息:年龄与性别、影像学特征(如最大肿瘤直径以及是否多发)以及术前几天完成的一系列常规化验。研究人员从中筛选出与复发概率相关的九个关键预测因子。他们没有依赖单一数学公式,而是将三种不同的机器学习方法结合起来,并将它们的输出平均为0到1之间的一个风险评分。随后根据该评分将患者分为低、中、高风险组。

Figure 1
Figure 1.

优于标准分期系统

为评估模型表现,研究团队首先在原始医院的“保留”测试集上进行验证,然后在第二家医院的独立人群中进行外部验证。在两种场景中,新模型在区分术后24个月内谁将保持无复发与谁会复发方面均显著优于传统分期系统。在内部测试组中,该模型随时间的准确度(用常用统计指标曲线下面积表示)约为0.76,而常见分期方法约为0.55到0.64不等。高风险组的复发无病生存期最差,中等风险组的复发风险(风险比)约降低60%,而低风险组相比高风险组的风险约降低90%。这些显著差异在外部医院的验证中也得到重现,并在大多数亚组中保持一致,例如不同年龄段、男女以及肿瘤大小不同的患者。

打开人工智能的黑箱

医学领域对机器学习的常见批评是其如同黑箱:虽然预测性能可能很好,但即便是专家也难以看清其原因。为了解决这一问题,作者应用了一种称为SHapley Additive exPlanations(SHAP)的方法,将每次预测分解为各输入因素的贡献。分析表明,肿瘤大小是推动更高风险的最强单一因素,其次是肿瘤数量以及反映肝功能和炎症的血液指标。有趣的是,血氯水平在本数据集中倾向于将风险向相反方向拉动,表现为一种保护因子。对于个体患者,模型可以生成简单的条形图式图示,显示例如较大肿瘤直径和不利的血液指标如何推高风险评分,而更好的肝功能如何将其拉低。

Figure 2
Figure 2.

这在临床中的可能意义

由于该模型基于医院已常规收集的数据运行,不需要特殊影像或昂贵的基因检测,因此可在多种医疗环境中部署,包括资源有限的设置。术前,医生可用它识别需要更紧密随访或可能从术后追加治疗中获益的患者,同时避免对真正低风险的患者进行不必要的检查和带来额外焦虑。作者指出,他们的研究为回顾性并来自特定患者群体,因此仍需在更具多样性的环境中进行前瞻性试验。然而,该工作展示了透明且可解释的人工智能如何将熟悉的化验数值和影像发现转化为有意义的、个体化的预测,支持患者与医疗团队间的共同决策。

引用: Guo, DF., Wen, Q., Zhang, X. et al. An interpretable machine learning model using routine clinical data for early recurrence prediction in hepatocellular carcinoma. Sci Rep 16, 7520 (2026). https://doi.org/10.1038/s41598-026-38484-w

关键词: 肝癌复发, 机器学习模型, 临床风险预测, 可解释人工智能, 肝细胞癌