Clear Sky Science · zh

用于实体肿瘤发病率预测与放射风险评估的深度学习

2026-03-30 · 返回目录

这为何与日常生活相关

我们都接触到来自医学检查、飞机飞行和环境的低剂量辐射。监管机构使用模型来估算这些辐射可能提高我们患癌几率的程度。本研究探讨现代人工智能，尤其是深度学习，是否能在估算上优于几十年来指导安全规则的传统公式。

独特的长期人类数据集

研究以寿命调查（Life Span Study）为核心，该调查长期追踪了10万多名广岛和长崎原子弹爆炸的幸存者。对每个幸存者亚组，科学家们都知道其收到的剂量、随访时长以及发生的实体肿瘤数量。作者使用了人年表，它汇总了按年龄、暴露时年龄、性别、城市和剂量组合的癌症病例数和暴露时间。这个丰富的数据集一直是全球放射防护指南的基石，是检验新建模方法的理想试验场。

旧规则与新学习器的对比

在该队列中，传统上使用所谓的参数模型来估算放射风险。这些模型依赖事先选择的数学公式来描述风险随剂量、年龄和其他因素的变化。它们透明且相对易于解释，但如果所选公式与数据中的真实模式不符，就可能产生偏差。相比之下，深度神经网络通过多层连接的“单元”直接从数据中学习关系，而不假定剂量-反应曲线的特定数学形状。作者构建了一个输入为六项的神经网络——两项年龄测量、性别、城市、爆炸时所在位置和剂量——并预测人年表中每个格子的肿瘤发病率。

深度学习预测癌症发病率的表现如何？

研究团队比较了四种模型：基于简单均值的“空模型”、标准线性模型、传统参数化的放射风险模型和深度神经网络。他们通过重复交叉验证，并使用若干标准误差度量来评判性能。神经网络在所有指标上误差最低，但仅比复杂的参数模型略好。两个先进模型在各年龄组和大多数剂量类别上都与观察到的肿瘤发病率高度一致，尽管在最高剂量和最高年龄段两者均出现更大的不匹配。换言之，就预测肿瘤发生数量而言，深度学习并未显著超越最佳的传统模型，但至少不逊色并且常常略优，代价是更高的计算时间和更复杂的模型结构。

关于放射风险构成的不同视角

更显著的差异出现在作者检查超额相对风险（ERR）时，ERR是常用来表达辐射将某人基线癌症风险放大多少的方式。通过神经网络，他们通过比较有剂量和无剂量条件下的预测肿瘤率（其他因素不变）来估算每个格子的ERR。尽管神经网络与参数模型预测的肿瘤数量相近，但得到的ERR值在剂量范围内有显著差异：参数模型往往给出更高且分布更广的ERR估计。为探究原因，研究者使用了SHAP值——一种基于博弈论的方法，为每个输入变量分配对模型预测的贡献。就总体肿瘤率而言，两种模型均认为已达年龄、暴露时年龄、剂量和性别是最重要的影响因素。但对于ERR，神经网络强调辐射剂量为主导因素，年龄起较小的辅助作用，而参数模型由于其预先指定的公式形式，更强烈地将作用归因于暴露时年龄和已达年龄。

局限、挑战与未来用途

该研究强调，尽管深度学习灵活，但对许多用户而言仍是“黑箱”。它不自然地提供监管者习惯使用的简单汇总数字——例如“每单位剂量的风险增加”——而且为其预测估计不确定性区间在技术上具有挑战性，特别是在使用汇总的人年数据时。若控制不当，模型也可能对数据中的微妙异常过拟合，并且所需计算资源远多于传统方法。作者认为深度学习不应取代精心构建的参数模型，而应作为强有力的辅助工具：它可以揭示隐藏的非线性模式或交互，并为更易解释和监管的简化模型提出更好的函数形式。

这对放射安全意味着什么

对普通读者而言，结论是现代人工智能工具在预测关键人类数据集中与放射相关的癌症发病率时，能够匹配或略微优于传统方法。然而，它们可能会呈现出对哪些因素更重要的不同解读，尤其是在年龄如何影响放射风险方面。此项工作并非颠覆既有知识，而是凸显了模型选择如何改变剂量与年龄重要性的表象，并呼吁将深度学习与专家引导的、透明的模型相结合。从长远看，这种混合方法可支持针对医疗、工作场所和环境的更为细致与可靠的放射防护指南。

引用: Liu, Z., Nakamizo, T., Misumi, M. et al. Deep learning for incidence rate prediction and radiation risk assessment of solid tumors. Sci Rep 16, 10577 (2026). https://doi.org/10.1038/s41598-026-46756-8

关键词: 放射风险, 深度学习, 癌症发病率, 原子弹幸存者, 风险建模