Clear Sky Science · zh

通过双注意力混合 CNN-HiFuse 方法增强肺癌分类

· 返回目录

为什么早期发现肺癌很重要

肺癌是全球最致命的癌症之一,很大程度上是因为常常在晚期才被发现,届时可供选择的治疗有限。放射科医师已经通过高分辨率 CT 扫描查找肺部可能的微小病灶,但逐片仔细检查既费时又容易疲劳——小而微妙的结节会被漏检。本研究探讨了一种先进的人工智能如何充当不知疲倦的“第二只眼”,帮助医生更早发现肺部问题,并区分无害发现与危险病灶。

将胸部扫描转化为清晰类别

研究人员聚焦于放射科医师每天面临的一个实用三分类问题:一张 CT 切片是正常肺组织、良性结节还是恶性结节?他们使用来自伊拉克某肿瘤中心的公开数据集,包含来自 110 名患者的 1,190 张 CT 切片,每位患者被标注为正常、良性或恶性。为避免性能估计过高,他们按患者而非按图像划分数据,确保同一患者的切片不会同时出现在训练集和测试集中。他们还对图像的大小、亮度和格式进行标准化,并应用数据增强(例如旋转、翻转和亮度变化),以帮助系统应对真实世界的多样性并均衡较少见的良性和恶性样本。

Figure 1
Figure 1.

智能阅片器如何“看”图像

该系统的核心是卷积神经网络,这是一类尤其擅长识别图像中模式的人工智能。他们设计的模型称为“双注意力混合 CNN–HiFuse 架构”,专为肺部 CT 的挑战量身定制。它首先使用标准卷积层提取基本视觉特征,如边缘和纹理。随后,一个名为 HiFuse 的专门模块在不同尺度上融合信息:一条分支捕捉整个肺部的广泛全局背景,另一条分支聚焦于潜在结节周围的局部细节。通过分层融合这些视角,网络能够同时注意到微小斑点和它们周围的较大结构。

教系统在哪里寻找线索

除了提取特征外,模型还主动学习应当关注的位置。“双注意力”机制以两种方式运作。通道注意力为最具信息量的特征类型赋予更高权重——例如那些特别擅长将恶性结节与瘢痕组织区分开的特征——同时抑制干扰信号。空间注意力则集中在图像的特定区域,突出肺部的可疑区域并抑制背景。这两种注意力按顺序应用,帮助系统为每张切片生成一个紧凑且聚焦的摘要,然后该摘要送入最终分类器,输出正常、良性或恶性的概率。

Figure 2
Figure 2.

该方法的性能如何

为调整构建此类系统时的众多选择——例如使用多少个滤波器、以多快的速度更新内部权重以及如何正则化网络——作者使用了自动搜索工具。在最佳超参数下,他们将混合模型与若干强基线进行比较,包括知名深度网络如 VGG16 和 ResNet50,以及一个带注意力的定制网络。在独立测试集(213 张 CT 切片)上,他们的双注意力混合 CNN–HiFuse 模型达到约 98% 的准确率,并具有很高的精确率和召回率。总共仅错误分类四张切片,且未检出恶性结节的情况特别少,这在安全性上尤其重要。接收器工作特性曲线(ROC),用于衡量模型在不同阈值下的类别区分能力,三类的表现均接近理想状态。

在真实世界护理中的前景与局限

对非专业读者来说,主要信息是这项研究展示了一个快速、相对轻量的 AI 系统,能够以令人印象深刻的准确率将肺部 CT 图像划分为三类具有临床意义的组别,同时提供指示其决策依据的注意力图。这提高了工具的可解释性,使放射科医师更容易将其作为决策支持而非黑箱来信任。然而,结果来自单一医院,依赖二维切片而非完整三维扫描,并采用简化的三类标注方案,因此应将其视为令人鼓舞的初步成果而非确凿证据。通过在更大、更具多样性的数据集上进一步测试并最终整合到临床工作流程中,类似的注意力驱动模型有望帮助更早发现肺癌并减轻超负荷影像专家的负担。

引用: M. D, A., B, V. Enhancing lung cancer classification through a double attention hybrid CNN-HiFuse approach. Sci Rep 16, 13099 (2026). https://doi.org/10.1038/s41598-026-42290-9

关键词: 肺癌, CT 成像, 深度学习, 计算机辅助诊断, 注意力机制