Clear Sky Science · zh

用于稳健医学图像分析的多阶段迁移学习框架的开发与评估

2026-02-28 · 返回目录

为什么更聪明的图像解读很重要

现代医学在很大程度上依赖影像——从乳腺X线摄影到胸部X线——以便早期发现疾病并指导治疗。但要让计算机像人类专家那样准确地读取这些图像，通常需要大量经过精心标注的数据集，而许多医院并不具备这样的资源。本研究提出了一种新的训练人工智能系统的方法，更好地利用现有图像，包括廉价的实验室癌细胞照片，以提升在真实临床扫描上的表现，同时减轻隐私和数据需求。

从日常照片到医院扫描

大多数医学影像AI系统以在数百万张日常照片上预训练的模型为起点，例如动物、物体和风景。这种被称为迁移学习的策略，能让算法在识别形状和纹理方面获得“先验”。然而，度假照片与医学扫描之间存在巨大差距。乳腺X线或胸片中重要的模式——微小斑点、隐约阴影或细微的组织纹理——与普通照片中的物体并不相同。因此，传统的迁移学习可能会遇到瓶颈，导致工具在实验室内表现良好但在不同医院、设备或患者群体间泛化不足。

用细胞图像搭建桥梁

作者提出了一种多阶段迁移学习（MSTL）框架，在通用图像与临床扫描之间增加了关键的中间步骤。在先于大规模自然图像集上训练模型之后，再在实验室培养的癌细胞系的显微图像上进行微调。这些细胞图像与医学扫描共享许多视觉特征：密集、拥挤的结构；细粒度纹理；以及亮度的细微变化。它们也相对廉价、可大量生成，并能避免与患者数据相关的隐私问题。通过先适应这种细胞图像的视觉世界，模型学到的特征在真正看到乳腺X线、超声或胸片之前就更贴近疾病模式。

在不同类型扫描上测试

为了评估该策略，研究人员在三种常见影像任务上训练了传统卷积神经网络和较新的视觉变换器：乳腺X线影像中的乳腺癌检测、超声中的乳腺病变分析以及胸片中的肺炎检测。他们比较了三种训练方式：从头训练、使用来自自然图像的传统迁移学习，以及使用以癌细胞图像为桥梁的新型多阶段方法。多阶段方法始终带来最佳结果，在所测试的数据集上常常将准确率推向接近完美的水平。视觉变换器能够捕捉整张图像的长程模式，在几乎所有情形下都优于标准卷积网络，尤其是在与多阶段训练结合时表现突出。

衡量知识迁移的程度

除了简单的准确率分数，团队还考察了一个阶段学到的特征在下一阶段的迁移程度。他们使用了三种迁移能力度量，反映所学图像模式与新任务的兼容性。对于乳腺X线和胸片而言，这些度量与实际性能高度一致，尤其是对于最强的模型——基础视觉变换器（ViTB-16）。这种紧密的关系表明，中间的细胞图像阶段不仅仅改善了数值表现；它产生了确实更适合医学图像的表征。额外的实验表明，将细胞图像数量减半会损害性能，而用其他医学模态（如内镜或眼部图像）替代效果较差，凸显了癌细胞系作为桥梁的特殊价值。

迈向更可靠的自动诊断

通俗地说，研究表明在让AI系统阅读医院扫描之前，先教它识别实验室培养的细胞图像，会使其成为更熟练且更可靠的医学影像“读片者”。这一多阶段路径减少了多彩的日常照片与临床图像中沉闷、复杂模式之间的不匹配，使模型即使在仅有适度标注医学数据时也能更好地泛化。结合现代视觉变换器，该方法在多个基准数据集上实现了最先进的性能。尽管仍需要更多多样化数据和更广泛的测试，但该框架指向了可扩展且有利于隐私的工具，有望在全球范围内帮助医生更准确、一致地诊断疾病。

引用: Ayana, G., Park, Sy., Jeong, K.C. et al. Development and evaluation of a multistage transfer learning framework for robust medical image analysis. Sci Rep 16, 8873 (2026). https://doi.org/10.1038/s41598-026-42157-z

关键词: 医学图像分析, 迁移学习, 深度学习, 视觉变换器, 癌细胞成像