Clear Sky Science · zh

一种将卷积神经网络与变换器融合的混合深度学习方法用于基于CT扫描的肺癌分类

2026-03-17 · 返回目录

这项研究对患者和家庭的重要性

肺癌是全球致死率最高的癌症之一，主要原因在于常常被发现得太晚。本研究探讨了先进计算机视觉如何帮助医生更准确、更一致地解读肺部CT扫描，从而更早且更少出错地标记可疑病灶，潜在地支持更快且更有依据的临床决策。

用数字之眼观察胸腔内部

医生通常依赖CT扫描寻找可能提示癌变的微小生长物，这些生长物称为结节，尤在疾病早期可能非常小且不明显。正常肺组织、无害结节和危险肿瘤在影像上可能看起来非常相似，即便对经验丰富的专家也是如此。图像质量、背景组织或噪声的微小变化会进一步模糊差异。因此一些癌症会被漏诊，而其他发现则可能触发误报，导致不必要的后续检查。

Figure 1. 人工智能如何解读肺部CT以将图像归类为健康、良性或癌变三类。

教会计算机在肺部影像中识别模式

研究人员设计了一种名为C-Swin的深度学习系统，帮助将肺部CT图像分类为三类：正常、良性（非癌性）和恶性（癌性）。深度学习系统直接从大量示例图像中学习，而不是依赖手工规则。C-Swin结合了两种强有力的理念。一类被称为卷积神经网络（CNN）的网络专注于边缘、纹理和小形状等细节，这些细节揭示结节的结构；同时，一个受语言翻译工具启发的变换器模块从更广的视角观察图像，考虑肺部各区域之间的相互关系。

聚焦图像中真正重要的部分

为了充分利用CT影像，团队引入了一种特殊的注意力机制，帮助模型集中于相关区域，忽略背景干扰。CT图像被划分为小的补丁或窗口。在这些窗口内，模型学习哪些区域包含对判断组织是否健康最有用的信息。通过在不同方向上移动并组合窗口，网络保留了邻近区域之间的关系，并捕捉肺部的近距离细节与远距离结构。一个附加的门控组件帮助系统强调细微但重要的模式并抑制不太有用的信号，从而精细化模型区分无害结节与危险病灶的能力。

Figure 2. 一种双路径AI模型如何同时放大肺部细节与整体影像，以标出可能的癌变区域。

对系统进行检验

作者使用来自伊拉克医院的公开CT数据集对C-Swin进行了训练与评估，数据集包含健康肺、良性结节和恶性病例的影像。由于医学数据集通常较小，他们通过数据增强（如翻转和旋转图像）扩充了训练集，以模拟更多样的扫描情况。经过仔细的预处理和训练，模型以约96%的准确率正确分类图像，并在精确率、召回率和F1分数等平衡漏诊与误报的指标上取得了同样较高的得分。在使用不同数据划分进行的重复测试中，结果保持稳定，统计检验显示C-Swin显著优于若干现有的深度学习方法。

这对未来医疗可能意味着什么

尽管本研究不能替代放射科医师的判断，但表明精心设计的局部与全局图像分析结合可以帮助计算机定位专家认为最重要的肺区。Grad-CAM可视化（用于高亮影响模型决策的图像区域）表明C-Swin倾向于关注病灶区域而非无关背景。作者指出，该工作基于单一且相对较小的数据集，因此仍需在不同医院和不同扫描仪上进行更广泛的测试。如果在更大且更多样化的扫描集合上得到验证，此类系统可能成为阅片室的有用助手，帮助临床医师优先处理病例、降低漏诊率，并有望支持更早期的肺癌发现。

引用: Yousafzai, S.N., Nasir, I.M., Mansour, S. et al. A hybrid deep learning approach integrating CNN and transformer for lung cancer classification using CT scans. Sci Rep 16, 15420 (2026). https://doi.org/10.1038/s41598-026-41161-7

关键词: 肺癌, CT成像, 深度学习, 医疗人工智能, 图像分类