Clear Sky Science · zh

高效 SqueezeViT：用于胸部X光图像分类的轻量级视觉变换器框架

2026-04-09 · 返回目录

为什么更快的胸片读片很重要

胸部 X 光扫描是医生查找肺部和心脏问题（从肺炎到结核等）的最常用手段之一。在忙碌的医院或计算资源有限的小型诊所中，运行那些可以帮助医生更快阅读影像的大型人工智能工具很困难。本研究提出了一种新的紧凑型 AI 模型，名为 SqueezeViT，旨在在识别胸部疾病的同时，使用远少于典型系统的计算资源，从而在现实临床中更具可行性。

一种新的缩减智能图像读取器的方法

现代图像识别工具通常依赖两类思路。卷积神经网络擅长捕捉图像局部区域的细节，而变换器模型更善于把握整张影像的全局信息。然而，标准的视觉变换器既笨重又缓慢。作者设计 SqueezeViT 以保留变换器的广域视野，同时“压缩”每一步需要处理的信息量。其目标是保留对诊断重要的图像部分，同时削减多余的计算，使模型能在配置有限的硬件上运行。

Figure 1. 紧凑型人工智能有助于在低功耗医疗设备上准确分类胸部 X 光图像。

紧凑模型如何观察肺部与心脏

SqueezeViT 结合了两个构建模块以高效处理胸片。第一个称为 Fire 块，像一个智能滤波器，将来自图像的信息压缩为更少的特征，然后再扩展以强调与疾病相关的边缘和纹理等模式。第二个称为 Translution Block，将图像拆分为小补丁并应用注意力机制，使模型能够关联肺部或心脏中相距较远区域的信号。通过采用比许多早期设计略大的补丁，模型减少了注意力步骤所需的计算量，同时仍能捕捉胸部不同区域之间的相互关联。

将系统付诸测试

为评估 SqueezeViT 的实际表现，研究者在两个大型公开胸片集合上进行了测试：NIH ChestX-ray14 数据集和 CheXpert 数据集。这两者合计包含数十万张针对多种病种（如心脏肥大、肺水肿、肺炎和肺结节）标注的影像。团队从头训练 SqueezeViT，并将其区分病变与正常病例的能力与多种知名深度学习模型比较，包括像 ResNet 和 DenseNet 这样的重量级模型，以及 MobileNet、ShuffleNet、SqueezeNet 和 MobileViT 等更轻量的选项。他们侧重于受试者工作特征曲线下面积（AUROC），这一评分会奖励那些能在不同判定阈值下更好地将异常病例排在正常病例之前的模型。

速度、体积与精度的平衡

结果表明，SqueezeViT 在多个任务上的准确性可与更大型模型匹敌，甚至在若干任务上更优，同时模型体积显著更小。它大约使用五十万可训练参数，相比 MobileViT 参数减少超过 40%，与一些最大基线模型相比减少超过 90%。其计算量、内存使用和在图形处理器及标准 CPU 上的处理延迟均有所降低，使其能在常见硬件上仅用几毫秒分析一张影像。在多病种检测场景中，SqueezeViT 在许多病症上与最佳的重量级模型持平或紧随其后，并明显优于其他轻量级设计。在简单的正常对异常判定任务中，其在两个数据集上同样给出强劲且一致的得分。

这对日常医疗意味着什么

对非技术背景的读者来说，关键信息是 SqueezeViT 表明可以构建一种既节省计算资源又在疾病检测上谨慎的胸片 AI 助手。尽管它不能取代放射科医师或临床医生，但它可以在拥挤的医院中更快地标记可疑影像，并将先进的图像分析扩展到设备有限的诊所。作者指出，真实世界的标注可能存在噪声且某些病种仍具有挑战性，但他们认为这种紧凑设计是朝着可靠、可移植的胸部影像辅助工具迈出的有希望的一步，未来可能扩展到 CT 或 MRI 等其他影像类型。

引用: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

关键词: 胸部 X 光 AI, 视觉变换器, 医学图像分析, 轻量级深度学习, 肺病检测