Clear Sky Science · zh

宫颈细胞非典型分类中保形预测的验证

· 返回目录

为什么更智能的宫颈癌筛查很重要

宫颈癌每年仍导致数十万女性死亡,尤其是在医生和实验室专家稀缺的国家。能够在显微镜下审查宫颈细胞样本的人工智能(AI)系统可能有助于弥补这一缺口,但现有系统经常表现得过于自信。它们通常仅给出一个“最佳猜测”标签,即便图像本身确实难以判定。本研究提出一个简单但关键的问题:当 AI 表示不确定时,这种不确定性是否真正与人类专家的判断一致?

从单一答案到可能性短名单

大多数针对 Pap 涂片图像的医学 AI 工具沿用了标准实验室报告的写法:选择一个类别,例如“正常”、“低级别改变”或“高级别改变”,并附上一个概率值。但这些概率分数往往显得过于确定。本文探讨的方法称为保形预测,采取了不同路径。它不输出一个最终答案,而是为每个切片图像生成一个小的可行标签集合。非常有把握的病例可能只得到一个标签,而棘手的病例可能得到多个。理论上,这应当为临床医生提供模型知道与不知道的更诚实视角。

Figure 1
Figure 1.

构建专家分歧的丰富图景

为了检验这一想法在现实世界中的表现,研究者汇集了来自肯尼亚一所农村医院的300多张 Pap 涂片的详尽数据集。现有的 AI 系统首先标出可能含异常细胞的区域,这些区域被裁切成小图块。六位有经验的细胞学专家随后通过一个定制的网络平台对数千个图块进行标注。对于核心测试集,四位专家各自独立标注相同图块。这不仅产生了每个图块的单一“真实标签”,还形成了专家之间一致与分歧的完整模式,反映出哪些图像是明显的、哪些本质上具有模糊性。

测试表达不确定性的不同方式

团队训练了三种流行的深度学习模型以识别四类:正常、低级别改变、高级别改变和伪影。在每个模型之上,他们应用了三种不同风格的保形预测,这些风格在标签集合宽度上有所区别。随后他们用两种互补的方法评估性能。首先,使用标准的覆盖率类度量,简单地问:预测标签集合是否以至少选定的百分比包含专家共识标签?其次,引入一致性类度量,将每个预测集合与所有专家为该图块给出的完整标签列表进行比较,奖励那些 AI 的短名单与专家自身意见范围相匹配的情况。

当标准指标描绘过于乐观的图景

按照传统的覆盖率度量,保形方法看起来很有说服力:它们几乎总是包含专家的共识标签,尤其在允许输出稍大集合时更是如此。但更严格的一致性测试则呈现了不同的事实。AI 的标签集合与专家合并标签的精确匹配率仅约为三分之一,无论采用何种方法。有些方法倾向于给出小而精确的集合,因而遗漏了专家认为可能的标签;另一些方法则产生更大的集合,将不太可能的标签与正确标签一并纳入。各方法在追踪内在模糊性方面表现良好:当人类专家分歧更大时,保形集合往往会增大。然而,它们在标识真正不属于训练分布的图像(例如高度噪声的 Pap 涂片或来自不同组织类型的骨髓细胞)方面可靠性较差,而且这一行为强烈依赖于所用的基础模型。

Figure 2
Figure 2.

对真实世界使用的意义

对于考虑使用 AI 辅助工具的临床医生来说,主要结论是:不确定性估计并非仅因具有数学保证就自动可信。保形预测可以确保真实标签通常出现在预测集合的某个位置,但本研究表明,该集合中的额外标签可能与人类期望不符,甚至会分散对最相关可能性的注意。作者认为,在像癌症筛查这样风险较高的领域,AI 输出不仅要在技术上“正确”,还必须以聚焦且在临床上有意义的方式呈现信息。未来的工作需要同时改进模型与不确定性工具,使其诊断短名单在专家看来既合理又经得起定量检验。

引用: Hagos, M.T., Suutala, A., Bychkov, D. et al. Validation of conformal prediction in cervical atypia classification. Sci Rep 16, 9649 (2026). https://doi.org/10.1038/s41598-026-44850-5

关键词: 宫颈癌筛查, 医学人工智能不确定性, 保形预测, 数字细胞学, 分布外检测