Clear Sky Science · zh
用于乳腺癌筛查的人工智能的诊断准确性、公平性及临床实施:多中心回顾性与前瞻性技术可行性研究结果
为普通女性打造更聪明的筛查
乳腺癌筛查能挽救生命,但也给医疗系统带来压力,可能漏诊癌症或触发让人焦虑的假阳性提醒。本研究提出了一个简单却影响深远的问题:人工智能(AI)程序能否在英国国家筛查项目中安全地辅助读取乳腺X线片,在缓解繁忙专家工作压力的同时捕捉更多危险的癌症——并且对来自不同背景的女性保持公平?

当前筛查如何运作
在包括英国在内的许多国家,年龄在50至70岁的女性会被邀请定期做乳腺X线检查。在英国,每次影像通常由两名独立的专业人员读取;如果两者意见不一致,案件会由小组复核。这样的双重阅读系统旨在保证安全,但耗时且依赖足够的训练有素读片员——许多卫生系统正面临这方面的短缺。早期的计算机辅助工具帮助有限,有时反而增加了噪音而非带来清晰,因此卫生监管机构要求在将现代AI纳入国家项目之前提供有力的新证据。
在真实诊所中测试AI
研究者在英国国家医疗服务体系的两个主要阶段评估了谷歌更新的乳腺影像AI。首先,他们将系统应用于来自五个不同地区、近116,000例过去的筛查影像,并随访超过三年以观察哪些癌症实际出现。然后将AI的表现与第一位人工读片员、第二位读片员以及最终小组决定进行比较。在第二阶段,他们悄然将AI安装在12个筛查点,让其实时处理超过9,000例新影像——但不影响临床决策——以研究其在日常实践中的行为以及其设置可能需要如何调整。
AI看到了什么——以及检测到了什么
在大规模回顾性数据集中,AI比第一位人工读片员更敏感:它在总体上发现了更多癌症,同时将假阳性率控制在预设的安全范围内。如果将其作为双重阅读工作流中的一位读片员使用,系统会将癌症检出率从每1,000名女性约7.5例提高到9.3例,并且正确标记了原本被漏诊且后来才发现的四分之一癌症,这些癌症要么在筛查间期出现,要么在下一次常规随访时发现。增益在首次筛查的女性中尤为显著——这通常是最难判断的群体,因为没有既往影像可供比对。在这些首次就诊中,AI在召回更少女性的同时仍略微检测出更多癌症,尤其是侵袭性肿瘤,这类肿瘤对健康的威胁最大。
公平性、工作量与现实世界障碍
研究团队仔细评估了AI是否对不同群体的女性一视同仁。在年龄、乳腺致密度、社会经济状况及可得的有限种族数据维度上,他们没有发现持续存在的有害偏差迹象:与人工读片员相比,敏感性和特异性保持在较窄的差距内,尽管某些非常小的子群不确定性较大。他们还模拟了将AI作为第二读片员时工作量的变化。面向小组复核的人为读片次数可能下降近一半,读片员时间可减少约三分之一,即便更多病例会被上升到小组。在实时可行性阶段,AI能在几分钟内给出结果——远快于常规人工读取——但团队发现近期影像的风格与旧训练数据存在差异。初始的运行阈值过于敏感,导致更高的召回率,必须使用新的本地数据向下重新校准。

构建适配AI的筛查体系
除了准确性之外,研究暴露了安全部署的实际障碍。许多筛查中心仍依赖纸质表格和无法自动存储AI结果或解释召回原因的旧软件——而这些正是监管者和临床医生所需的功能。作者认为,全面数字化、标准化的工作流程和更完善的人口学数据采集对于随时间监测性能与公平性至关重要。他们还强调AI阈值不能“设定后忘记”:影像设备、读片员行为与人群构成都会变化,因此系统必须持续检查与调整,并配以明确的国家规则和技术支持。
这对患者意味着什么
研究结果表明,经过审慎部署的AI系统可能帮助国家乳腺筛查项目更早发现更严重的癌症,尤其是在首次做乳腺X线检查的女性中,同时减轻人手紧张的专家的工作负担。然而,作者强调成功依赖于的不仅仅是一个准确的算法。医疗服务需要持续校准、对漂移与偏差的严格监测、升级的IT基础设施以及将AI周到地整合进现有的人类工作流程。有了这些保障,AI可以成为值得信赖的额外读片者,提高乳腺癌筛查的效率与公平性,而不是作为增加新风险的黑箱。
引用: Kelly, C.J., Wilson, M., Warren, L.M. et al. Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies. Nat Cancer 7, 494–506 (2026). https://doi.org/10.1038/s43018-026-01127-0
关键词: 乳腺癌筛查, 医学人工智能, 乳房X线摄影(乳腺钼靶), 医疗公平性, 临床实施