Clear Sky Science · zh

MM FD ConvFormer 多模态频率感知可变形 CNN-Transformer 网络，用于稳健的脑肿瘤分类

2026-03-09 · 返回目录

为何更智能的脑部影像阅读至关重要

脑肿瘤是最令人担忧的诊断之一，临床医生常依赖 MRI 扫描来发现并评估它们。但解读这些影像既困难又耗时，即便经验丰富的专家也可能存在分歧。本研究提出一种名为 MM‑FD‑ConvFormer 的新型人工智能（AI）系统，旨在更准确、更可靠地对脑肿瘤进行分类，并以医生更易理解的方式呈现其判断依据。

从多重视角观察肿瘤

现有大多数计算系统以直接的方式分析 MRI：关注屏幕上可见的空间图像，着重形状、亮度和边缘信息。MM‑FD‑ConvFormer 则更进一步，将同一张扫描视为两种不同但互补的视图。一种是熟悉的大脑空间图像；另一种是通过数学变换构建的频率视图，突出细微纹理和强度的快速变化。通过融合这两种视角，模型能更好地捕捉肿瘤与健康组织之间的细微差别，尤其在肿瘤边界模糊或不同扫描仪器/医院导致外观差异的情况下更为有用。

从扫描到决策的分层通路

系统对每个 MRI 切片通过两条并行通路进行处理。在第一条通路中，现代卷积网络（对传统图像分析引擎的改良）学习解剖结构与肿瘤形态的模式。第二条通路则由更轻量的网络分析相同切片的频率版本，强调纹理和边界线索。随后，这两条信息流在 transformer 模块中融合与精炼——transformer 最初为处理语言而开发，但现被广泛用于视觉任务，因为它能连接图像中远距离的区域并理解更广泛的上下文，例如肿瘤在大脑中的位置。

适应不规则的肿瘤形态

许多肿瘤，尤其是侵袭性胶质瘤，并非规则圆形。传统的注意力机制会关注固定网格位置，可能遗漏或模糊这些不规则结构。MM‑FD‑ConvFormer 引入了可变形的跨模态注意力模块，使模型能够“弯曲”其关注区域以跟随真实的肿瘤形状。关键在于，该模块基于空间和频率信息的混合来调整关注点，因此结构与纹理共同引导模型的视线。此设计提升了对复杂边界的敏感性，并有助于对齐两条分支学到的表征，使最终融合的表示对分类更具信息量。

在不同医院数据上验证可靠性

为检验该系统在真实条件下的稳健性，作者在 Kaggle 和 Figshare 等公开 MRI 数据集上训练模型，并在独立的临床取向数据集（包括 BraTS 2020/2021 与 REMBRANDT 集合）上进行了评估。MM‑FD‑ConvFormer 在准确率、F1 分数和受试者工作特征曲线下面积等标准指标上优于强有力的卷积、transformer 与混合模型。在区分肿瘤与正常扫描时，其准确率约为 99.8%，并在用不同扫描仪与协议采集的未知数据上保持了高性能。该模型还通过重复、略微随机化的多次推理来估计自身不确定性，从而能标记出需要专家进一步判断的边界病例。

让 AI 的决策对临床医生可见

除了性能指标之外，作者还关注放射科医生能否理解并信任模型的判断。他们使用 Grad‑CAM 与 SHAP 等热图技术展示图像的哪些部位以及哪条特征通路（空间或频率）推动了每次预测。这些可视化解释与已知的肿瘤区域和边界高度一致，即便系统仅以分类为训练目标而非分割，也与专家绘制的掩膜具有很强的重合度。频率分支在存在伪影、噪声较多或跨机构数据中贡献更大，证明双视角方法并非单纯的数学技巧，而在实践中确有助益。

对患者与临床医生意味着什么

简而言之，MM‑FD‑ConvFormer 是一种以两种互补方式查看脑部 MRI、能够灵活追踪真实肿瘤形状并在做出判断时可解释其“关注”位置的 AI 助手。在多个数据集上，它在准确性和对扫描仪/医院差异的鲁棒性方面均优于以往方法，同时提供更好的可视化理由并内建识别何时可能出错的机制。如果在临床环境中得到进一步验证并扩展到完整的 3D 扫描，这类技术可能有助于更早且更一致地检测肿瘤，支持放射科医师与神经科医师更有信心地制定个体化治疗方案。

引用: Arockia Selvarathinam, A.X., Lilhore, U.K., Alroobaea, R. et al. MM FD ConvFormer multimodal frequency aware deformable CNN transformer network for robust brain tumor classification. Sci Rep 16, 12669 (2026). https://doi.org/10.1038/s41598-026-43616-3

关键词: 脑肿瘤 MRI, 医学成像 AI, 深度学习模型, 肿瘤分类, 模型可解释性