Clear Sky Science · zh

CR-MSNet：一种用于多标签胸片分类的双分支多尺度注意力网络

2026-03-23 · 返回目录

为什么更智能的胸片很重要

胸片是全球最常见的医学检查之一，只需一张快照即可检测多种肺部和心脏问题。然而，对这些影像的解读很费劲，即便是资深放射科医师也不例外，而且一张影像里可能同时包含多种不同的疾病。本研究提出了一种新的人工智能模型，称为 CR-MSNet，其设计目标是更像专家那样阅读胸片：既关注胸腔的整体结构，又留意小而难以察觉的异常，同时还能处理仅出现在少数患者身上的罕见疾病。

兼顾整体胸腔与细小病灶

大多数现有的计算工具通过单一路径处理胸片，这使得在同一模型中同时捕捉宽广器官形状与针尖大小的病变变得困难。CR-MSNet 则采用两条并行路径。一条“全局”路径专注于肺和心脏的整体结构，学习跨越整张图像的长程模式；第二条“局部”路径则放大较小区域，以捕捉细微特征，例如小结节或胸壁轻微增厚。通过并行运行这两条路径，系统能够识别表现为大范围弥漫性影子的疾病，也能发现呈现为小而清晰斑点的病变。

教会模型应当观察何处

仅有两条路径还不够；系统还需要决定图像的哪些部分值得更多关注。CR-MSNet 引入了一个新的注意力模块，能同时在两方面发挥作用。首先，它对不同的特征“通道”加以权重，你可以将这些通道看作描述图像的不同方式（如边缘、纹理和亮度模式），并增强那些对识别疾病最有用的通道。其次，它在空间上突出重要区域，加强可能是病灶区域的信号，同时减弱诸如肋骨或心影等干扰结构。这两类关注方式以一种灵活的方式结合，保留原始图像结构，帮助模型在多种病灶尺度上锁定有意义的模式。

将全局语境与局部细节融合

在每个分支各自优化其对胸片的视野后，CR-MSNet 通过交叉注意力机制将它们汇合。简单来说，全局分支会问：“基于我对整张胸片的理解，哪些局部细节最为重要？”与此同时，局部分支提供其最具信息量的细粒度模式。交叉注意力步骤让这两种视角相互影响，产生一种融合表示，既保留肺和心脏的总体布局，又用精确定位的预警信号丰富该表示。随后，一个自适应门控组件按图像逐一决定应多大程度信任融合视图相对于纯全局视图，这有助于在局部线索微弱或噪声较大时保持稳定性。

公平处理常见与罕见疾病

现实世界的胸片集合通常高度不平衡：一些问题例如广泛的肺实变很常见，而像在 X 光上可见的疝气则很少见。标准训练方法往往偏向常见情况，可能忽视罕见疾病。为应对这一点，作者采用两阶段训练 CR-MSNet。首先，他们临时移除无病影像，让模型集中学习不同异常的外观。在第二阶段，他们将完整数据集放回，同时使用经过调整的损失函数，对罕见疾病和难以分类的样本给予额外权重。这种分阶段方法有助于系统在不牺牲整体准确性的前提下，对不常见发现保持敏感。

新系统的性能表现

研究人员在 ChestX-ray14 上测试了 CR-MSNet，该公开大型数据集包含十多万张胸片，并对 14 种不同疾病进行了标注。在相同的训练和评估条件下，他们的模型优于一系列领先的深度学习方法，包括经典卷积网络、现代基于变换器的模型以及二者混合的其他方法。平均而言，CR-MSNet 在受试者工作特征曲线下面积（AUC）上超过了所有基线方法，并在诸如疝气和某些肿块等较小或较少见病种上取得了尤其显著的提升。该模型在未经重训练的情况下，在另一个名为 CheXpert 的数据集上也显示出合理的鲁棒性，表明它可以适应患者群体和成像风格的变化。

这对未来胸片解读的意义

通俗来说，CR-MSNet 是朝着一种能够同时扫描胸片多种疾病、兼顾大问题与小病灶并重视罕见但重要情况的 AI 助手迈出的一步。通过将全局与局部视角、智能聚焦机制和谨慎的训练方案结合起来，模型减少了早期系统的一些盲点。尽管它并不能取代专家放射科医师——并且在某些非常模糊的模式（如肺炎）上仍有困难——但它为自动分诊和决策支持提供了更可靠的起点，有望加快诊断速度并帮助临床医生更自信地处理大量影像研究。

引用: Wang, Y., Bao, C., Wang, Z. et al. CR-MSNet: a dual-branch multi-scale attention network for multi-label chest X-ray classification. Sci Rep 16, 14585 (2026). https://doi.org/10.1038/s41598-026-44591-5

关键词: 胸片人工智能, 多标签诊断, 深度学习放射学, 医学图像注意力, 不平衡医疗数据