Clear Sky Science · zh

在乳腺筛查中将人工智能用作第二读片并纳入仲裁的影响

· 返回目录

这项研究对女性和家庭的重要性

乳腺筛查是早期发现癌症的最常用手段之一,在此时治疗更有效且创伤更小。然而,该体系依赖大量经过高强度训练的专家,通过目视检查乳房X线图像。在英国,放射科医师数量不足以轻松满足需求,这引发了对检测延迟和漏诊的担忧。本研究提出了影响数百万女性的问题:人工智能(AI)系统能否在不牺牲准确性的前提下,与人类专家并肩承担部分阅片工作——甚至可能更早发现癌症?

Figure 1
Figure 1.

当前乳腺筛查如何运作

在国家卫生署乳腺筛查项目中,50至70岁的女性每三年被邀请进行一次乳房X线检查。每组影像通常由两名经过训练的阅片者(如放射科医生或专科放射技师)独立阅片。如果双方意见不一致,或当地政策要求,病例将进入一种称为仲裁的专门讨论,由阅片者共同决定是否应召回该女性进行进一步检查。这种双重阅片制度旨在在两项目标之间取得平衡:尽可能多地发现癌症,同时避免引起焦虑、额外检查和费用的不必要召回。

研究人员要检验的内容

研究团队使用来自伦敦两家医院服务机构的5万名接受筛查女性的乳房X线图像和临床记录。由于这些女性有数年的随访,研究者不仅能看到筛查时发现的癌症,还能看到在筛查间期(即所谓的间期癌)或下一次常规随访时出现的癌症。他们用相同的历史影像比较了两条路径:标准的两名人类阅片者方法,以及一种AI辅助方法,其中第一读者为人类,第二读者为谷歌开发的AI系统。任何需要最终决定的病例都交由22名经验丰富的阅片者组成的仲裁小组审议,过程与实际临床中的运作相同。

AI与人类专家的表现对比

总体来看,在考虑仲裁决策后,将AI作为第二读片者的表现至少不逊于两名人类。AI辅助路径在识别真实患癌女性(敏感性)和排除未患癌女性(特异性)方面表现非常相似,满足严格的“非劣效性”统计标准。事实上,AI在特异性上略有提高,意味着不必要的召回更少,且两种方法的癌症检出率几乎相同。由于AI在大多数病例中替代了其中一名人类阅片,总常规阅片数量下降了约一半,即便考虑到仲裁带来的额外工作量,阅片者总时间仍估计减少36%–44%。

Figure 2
Figure 2.

AI在哪些方面有帮助——又在哪些方面不足

在仲裁之前,AI系统比单个人类阅片者更有可能标记那些后来在筛查间期或下一次常规访视中出现的癌症,这表明它有时能发现人类遗漏的微妙变化。然而,这些潜在的早期警示中许多在仲裁过程中被推翻,尤其是当阅片者参考了AI未分析的更早影像,或因AI标注的额外可疑点最终被证实为良性而受到影响。在一个虽小但重要的子集(93名女性)中,AI正确判断出异常,但仲裁小组决定不予召回;这些女性中的大多数后来发展为间期癌或下一轮的癌症。与此同时,人类仲裁也在许多最终无癌的女性中正确取消了AI触发的召回,从而提高了总体特异性。跨越不同年龄组、族裔、乳腺致密度和癌症类型,AI辅助路径总体上与标准护理相匹配,但某些较小子组的结果不够确定。

这对未来筛查可能意味着什么

研究表明,AI可以在不降低护理质量的前提下安全地担任乳腺筛查中的第二读片者,同时减轻人员紧张的压力。但研究也凸显了当前系统的局限:单靠AI确实在更早标记癌症方面显示出潜力,但当人类审慎地推翻部分AI提示时,这些优势会被削弱。作者认为,改进AI解释其建议的方式、减少干扰性的错误警报,并培训临床人员何时信任或质疑该工具,可能会释放更多潜力。如果这种人机合作得到改进并在真实世界试验中经过谨慎检验,AI支持的筛查不仅可能维持现有项目,还可能帮助更多女性在治疗最有可能成功的阶段发现癌症。

引用: Warren, L.M., Venton, J., Young, K.C. et al. Impact of using artificial intelligence as a second reader in breast screening including arbitration. Nat Cancer 7, 507–521 (2026). https://doi.org/10.1038/s43018-026-01128-z

关键词: 乳腺癌筛查, 乳房X线摄影, 人工智能, 放射学工作负担, 医学仲裁