Clear Sky Science · zh

英国筛查项目中不同乳腺X线设备上乳腺癌风险预测算法的表现

· 返回目录

这对女性和家庭为何重要

乳腺筛查通过早期发现癌症来挽救生命,然而许多肿瘤仍在常规乳腺X线检查之间的几年内出现,常常处于更晚期。本研究提出了一个简单但重要的问题:人工智能(AI)能否在“正常”的乳腺X线片中识别出并悄然标记那些实际上在短期内风险很高的女性,从而在癌症生长和扩散之前为她们提供额外检查?

Figure 1
Figure 1.

在“正常”片子中看到更多信息

大多数国家的筛查项目,包括英国,都每三年邀请女性进行一次乳腺X线检查。如果没有发现可疑征象,她们会被告知检查为“阴性”,并返回日常生活。然而,在接受筛查的女性中,大约30%的乳腺癌属于在计划访问之间出现的“间隔癌”,且预后通常较差。近年来,强大的AI系统学会了扫描对人类阅片者看来正常的影像,并为每位女性分配一个短期风险评分。其想法是利用这些隐藏信息来定制女性的筛查频率,以及决定谁应被提供更敏感的检查,例如磁共振成像(MRI)或增强对比乳腺摄影。

对四款AI工具的比较测试

研究人员检查了来自英格兰两个国家卫生服务体系(NHS)乳腺筛查中心的112,621例阴性筛查乳腺X线片,覆盖2014年至2017年完整的一个三年轮次,并对女性进行了五年随访。两个中心使用了不同的数字乳腺摄影设备(Philips 和 GE),反映了现实世界的差异。随访期间,1,225名女性被诊断出乳腺癌,其中包括396例间隔癌以及在下次筛查时发现的其他癌症。四个领先的AI风险算法——三款商业算法和一款学术模型——在本地对每张片子运行以生成未来癌症的风险评分,并比较了它们的表现。

算法识别未来癌症的能力如何

所有四种AI系统都能区分将来会与不会发生癌症的女性,表现优于随机猜测,但它们的表现并不相同。一种算法(标注为 DL-1)始终表现最强,而另一种(DL-3)落后。当团队专注于间隔癌——那些在“正常”影像后不久出现的癌症时,最佳模型达到了与先前单一算法研究相当或更好的准确水平。重要的是,四款工具中有三款在 Philips 与 GE 图像上表现相似,表明它们能应对至少部分扫描硬件差异,尽管有一款算法在某一系统上的表现明显较差。

如果我们对最高风险评分采取行动,会发生什么?

对筛查服务而言,实用的问题是应根据AI评分召回多少女性。研究人员因此考察了具有临床意义的阈值。如果只对每款工具评分中风险最高的4%女性提供额外关注,表现最好的两款算法合计捕获了大约五分之一的未来所有癌症,并捕获了超过四分之一的间隔癌。当阈值放宽到包括风险评分前14%时——更接近一些北美项目的召回率——产量大致翻倍:最强的模型识别出大约42%的未来所有癌症和一半的间隔癌。然而,每种算法倾向于标记部分不同的癌症子集,重叠相对较少,暗示集成或多工具策略可能比任何单一模型找到更多肿瘤。

Figure 2
Figure 2.

优势、不足与下一步

这项工作突出的地方在于它使用了来自两个大型NHS筛查中心的完整常规数据,而不是狭窄选择的研究样本,并且首次在英国背景下并列评估了多款有名的AI风险工具。与此同时,也存在局限性。带假体或采用非标准摄片视角的女性被排除在外,且研究仅涵盖两种乳腺摄影品牌,因此在其他设备或不同族群中的表现仍不确定。由于分析为回顾性,一些通过基于风险的额外影像检查本可能更早被发现的癌症未被计入,这意味着实际益处可能比报告的更大。

这对未来乳腺筛查意味着什么

对非专业读者的结论是,现代AI确实可以在“正常”的乳腺X线片中找到预示哪些女性更可能在短期内发展为乳腺癌的警示信号,尤其是那些否则难以早期发现的间隔癌。理论上,最佳的算法可以让筛查项目向一小部分较高风险的女性提供更频繁或更敏感的检测,而其他人继续接受标准的三年检查。然而,不同工具之间以及不同影像系统之间的差异表明,任何单一AI模型在未经过仔细测试前都不适合在所有地方直接采用。作者建议在采用AI引导的风险分层乳腺筛查成为常规护理之前,应开展大规模前瞻性试验,使用多种算法,并针对本地扫描设备和人群进行微调。

引用: Rothwell, J., Payne, N., Kilburn-Toppin, F. et al. Performance of breast cancer risk prediction algorithms across mammography systems in the UK screening programme. npj Digit. Med. 9, 330 (2026). https://doi.org/10.1038/s41746-026-02507-7

关键词: 乳腺癌筛查, 人工智能, 乳腺摄影, 风险预测, 间隔癌