Clear Sky Science · zh

使用鹦鹉优化视觉变换器最大化胰腺癌分类性能

2026-05-21 · 返回目录

这对患者与医生为何重要

胰腺癌是最致命的癌症之一，因为通常在肿瘤已在体内悄然生长很久后才被发现。本研究探讨了一个精心设计的人工智能系统如何读取腹部CT扫描，帮助医生更可靠、更一致地发现胰腺肿瘤。通过将多种现代图像处理工具整合为一条流程，研究人员展示了计算机能够支持更早、更准确的诊断，这对提高成功治疗的可能性至关重要。

将原始扫描变成更清晰的图像

这一过程从一组1811张胰腺CT图像开始，来源于开放在线数据集并被标注为正常或肿瘤。由于医学影像可能存在噪声且不同扫描间略有差异，团队首先对数据进行增强与清理。他们通过旋转、翻转和缩放原始图像创建额外的训练样本，这有助于系统学习应对患者与扫描仪之间的自然变异。随后应用一种对边缘和纹理敏感的特殊滤波器，以在降低干扰性视觉噪点的同时锐化胰腺中的重要细节。这种细致的预处理使后续步骤更容易关注可能提示肿瘤的细微变化。

先找到器官再判断其健康状况

研究者并不要求计算机一次理解整个CT切片，而是先教它定位并勾勒出胰腺。他们使用一种经过验证的分割网络，形状类似U-Net，学习将胰腺与腹部周围的器官和组织分离。一旦胰腺区域被单独提取出来，这一聚焦的切片就被输入到一个擅长检测不同尺度物体的强大检测器中。该检测器将胰腺转换为丰富的数值特征，捕捉其形状、纹理和多尺度的内部模式，同时忽略大部分背景。通过这种方式缩小注意范围，系统减少了与影像中其他相似结构产生的混淆。

让基于注意力的模型来决断

提取出的特征随后传递给视觉变换器（Vision Transformer），这是一类源自语言翻译研究的新型图像模型。与通过滑动滤波器逐块扫描图像不同，这种模型将胰腺分成小补丁，并学习每个补丁与其他补丁之间的相互关系。简单来说，它关注器官某一部分的模式如何与其他部分相连，这有助于同时捕捉局部细节与整体语境。变换器给出胰腺是正常还是癌变的初步判断。为了进一步提升性能，作者加入了受鹦鹉群体寻找食物行为启发的最终细化步骤，在该步骤中探索并逐步改进多个候选解以减少错误。

Figure 2. 按步骤展示AI如何清理扫描、定位胰腺、学习模式并细化肿瘤判定的过程。

将该流程付诸测试

作者称之为ViT-PO的完整系统，使用医学上重要的标准度量进行了评估：总体正确率、正确检测肿瘤的频率，以及避免误报的能力。在测试图像上，该模型达到约99%的总体准确率，并在捕获真实肿瘤病例与不误标健康扫描之间显示出良好的平衡。它的表现也优于若干知名替代方法，包括传统机器学习方法、标准深度神经网络和那些未采用相同集成流程的其他变换器架构。通过不同数据划分与重复运行的交叉验证表明，系统的行为是稳定的，而非仅在某一特定子集上偶然表现良好。

这对未来医疗的意义

对普通读者来说，关键结论是：将若干智能步骤结合起来——清理图像、分离器官、详细描述、用基于注意力的模型判断并最终微调决策——可以使计算机辅助的胰腺癌诊断更准确、更可靠。虽然这项工作仍然基于单一数据集并聚焦于正常与肿瘤的简单二分类，但它指向了未来可能协助放射科医生更早、更有把握地发现胰腺癌的工具，前提是这些工具在更大、更多样化的患者人群中得到严格验证。

引用: Mallika, C., Dinesh, E., Alsolai, H. et al. Maximizing pancreatic carcinoma classification performance using parrot optimized vision transformer. Sci Rep 16, 16277 (2026). https://doi.org/10.1038/s41598-026-53240-w

关键词: 胰腺癌, CT影像, 深度学习, 视觉变换器, 医学诊断