Clear Sky Science · zh

基于类别注意力池化与令牌稀疏性的视觉变换器用于胸片解读

2026-02-10 · 返回目录

为一种全球性肺部疾病打造更智能的X光解读

结核病仍然是全球最致命的传染病之一，而胸部X光常常是在拥挤诊所中可获得的首选甚至唯一影像检查，尤其是在中低收入国家。然而，即便对专家来说，阅读这些影像也很困难且耗时。本文介绍了一种人工智能系统，旨在不仅以极高的准确率识别胸片上的结核病迹象，还能向医生展示哪些肺部区域影响了其决策，旨在建立信任并支持更快速、更一致的诊断。

为何胸片解读如此具有挑战性

胸部X光成本低、速度快且广泛可得，使其成为大规模筛查的理想工具。但问题在于，结核病的影像表现可能非常微妙，容易被忽略，尤其是在影像噪声大、曝光不足或过度曝光，或使用老旧设备拍摄时。人工阅片者之间可能存在分歧，繁忙的诊所也会让放射科医生不堪重负。传统计算机程序通过测量图像中人工设计的特征并将其输入标准机器学习模型来应对，但这些早期系统在面对来自新医院或具有不同技术设置的扫描时往往表现欠佳。

从神经网络到以注意力为中心的视觉模型

深度学习，尤其是卷积神经网络，通过直接从像素中学习模式改善了这一状况，在结核病数据集上取得了不错的结果。然而，这些网络主要关注图像的局部邻域，可能会遗漏跨越双肺的更广泛模式。更新的模型称为视觉变换器（vision transformers），将X光视为一格格的小补丁，并学习每个补丁与其他补丁的关系，从而捕捉长距离结构。尽管功能强大，现成的变换器可能会关注不重要的区域且难以解释，这引发了关于其决策是否与临床推理一致的担忧。

为胸片量身定制的AI流程

作者设计了一种定制化的视觉变换器，以解决胸片的这些弱点。首先，对每张影像进行精心预处理：调整大小、归一化，并常常使用对比度增强技术，使微弱的肺部病变更突出，同时避免过度锐化。模型前端设置了轻量级的卷积阶段，用以提取在医学影像中重要的细节，如边缘和纹理。随后将影像划分为小补丁，每个补丁被转换成变换器可处理的令牌（token）。

教模型该看哪里

为了帮助系统跟踪解剖位置，模型使用位置编码机制，将每个补丁在肺部的位置信息注入进来，而不是把所有位置视为可互换。它还引入了特殊的“类别”令牌，每个疾病类别对应一个，这些令牌学会从所有补丁中汇集最相关的证据。一种稀疏策略鼓励网络仅依赖最具信息量的令牌子集，舍弃背景模式和噪声。训练方案包括诸如随机丢弃令牌、精心设计的学习率调度和混合精度计算等技术，旨在稳定有限医疗数据上的学习并避免对训练影像的特殊性过拟合。

看见AI所见

关键在于，该系统内建了解释能力。在给出“结核”或“正常”的预测后，模型使用称为Grad‑CAM的方法生成热力图。这些彩色叠加层突出了对决策影响最大的肺部区域。作者将其解释流程设计为同时展示来自病变和正常病例的平衡示例，以便放射科医生验证该工具是否关注临床有意义的结构而非无关的伪影。在两个公开结核病数据集上，该方法在验证集上达到接近98%的准确率和接近完美区分能力的受试者工作特征曲线下面积，但作者也提醒他们基于影像级的数据划分可能会略微高估真实世界的性能，仍需外部测试。

这对未来护理意味着什么

通俗地说，这项工作展示了一个能够快速且准确地在胸部X光上标记疑似结核病例，同时绘制出其推理的清晰“路线图”的AI系统。这样的工具可以帮助资源受限的诊所进行分诊、减少遗漏病例并为放射科医生提供一致的第二意见。与此同时，作者强调他们的模型仅在两个公开数据集上测试、只关注单一疾病标签且尚未获得完整的临床验证。未来的步骤包括将该方法扩展到多种肺部疾病、适配如CT等三维影像、与放射科医生一起验证其解释性并在不同医院进行测试。尽管如此，该研究标志着朝向不仅准确且在对抗结核病中透明可信的AI迈出了有希望的一步。

引用: Lokunde, V., Sundar, K., Khokhar, A. et al. Class-attention pooling and token sparsity based vision transformers for chest X-ray interpretation. Sci Rep 16, 8035 (2026). https://doi.org/10.1038/s41598-026-37109-6

关键词: 结核病, 胸部X光片, 视觉变换器, 可解释人工智能, 医学影像