Clear Sky Science · zh

HMC-transducer：用于稳健肝脏肿瘤分割的分层 mamba-CNN 变换器

2026-01-23 · 返回目录

为什么更好的肿瘤图至关重要

对于肝脏或肾脏癌症患者，医生依赖 CT 扫描来判断是否可以进行手术、放疗或其他治疗。关键一步是在三维空间中精确绘制每个肿瘤的轮廓；人工完成这项工作既缓慢又费力，而且结果常有不一致。本文提出了一种新型人工智能系统，能够自动描绘这些肿瘤，且比以往方法更准确、更一致，可能帮助临床医生更快、更有信心地制定治疗方案。

在三维扫描中看到整体图景

肝脏肿瘤因大小和形状差异大且常与周围组织相融而难以描绘。传统的卷积神经网络（CNN）在捕捉图像细节方面非常擅长，但在理解远程关系——即扫描中一个区域与远处结构之间的联系时表现欠佳。更新的模型如 Transformer 能捕获这种广域上下文，但在大规模三维 CT 体积上运行代价极高，限制了其在实际医院环境中的可行性。作者认为，要真正成功，系统必须既注重细节又具备全局感知能力，同时不要求超级计算资源。

为医学影像设计的新型混合“大脑”

为满足这一需求，研究者设计了 HMC-Transducer，一种将 CNN 与一种称为状态空间模型的新型模型家族（具体为 Mamba）结合的混合架构。CNN 部分专注于如肿瘤清晰边缘等局部精细特征。Mamba 部分则在整个三维扫描中追踪信息流动，同时仅需线性计算成本，避免了 Transformer 那样的指数级增长。一个专门设计的“方向感知 3D Mamba”模块沿三条轴线（头脚方向、左右方向、前后方向）处理扫描数据，使模型尊重真实的解剖结构，而不是将体积压扁为一维数列。

让模型决定何处何物更重要

一个核心创新在于如何将这两类特征融合。HMC-Transducer 并非简单相加或堆叠 CNN 与 Mamba 的输出，而是使用一种门控融合机制，该机制为扫描中的每个小区域学习应当在多大程度上信任局部细节或全局上下文。在边界清晰锐利的区域，门控会偏向 CNN 特征；当肿瘤边界模糊、浸润性强或靠近大血管时，门控会给予 Mamba 的广域视角更大权重。实验证明，这种自适应混合比仅用 CNN 或仅用 Mamba 的模型产生更紧致、更稳定的分割结果，并且优于早期以固定非自适应方式融合特征的混合设计。

在器官、扫描仪和医院间的测试

研究团队在三个主要公共数据集上评估了他们的方法：用于肝脏肿瘤的 LiTS17 和 MSD-Liver，以及用于肾脏肿瘤的 KiTS21。在这些基准测试中，HMC-Transducer 一致地比强基线（包括广泛使用的 nnU-Net 以及领先的 Transformer 和 Mamba 模型）与专家绘制的肿瘤图具有更高的重叠度。它在从一个肝脏数据集训练再在另一家不同医院采集的数据上测试时也表现出更好的泛化能力，这一场景模拟了真实部署中不同扫描仪和成像协议的变化。在直接比较中，大型“基础模型”如 SAM 及其医学变体在未经专门训练的即用情况下远远落后，突显了面向任务、经过精细调优的系统仍然是医疗像素级关键决策所需的。

从实验室结果走向临床帮助

对非专业读者来说，结论是这项工作使肿瘤绘图软件更接近医生真正需要的工具：既可信又高效。通过结合两种互补的“观察”方式——一种擅长微小细节，另一种擅长宏观全貌——HMC-Transducer 比早期系统更准确、更可靠地描绘肝脏和肾脏肿瘤，同时仍能在标准的高端医院硬件上运行。尽管在常规临床使用前还需采取进一步步骤，包括在更多器官和成像类型上进行更广泛的测试，但该方法代表了朝向自动化三维肿瘤图的有希望进展，可能支持更快的诊断、更精确的外科手术和更个性化的癌症治疗。

引用: Zhu, J., Xu, C., Lei, C. et al. HMC-transducer: hierarchical mamba-CNN transducer for robust liver tumor segmentation. npj Digit. Med. 9, 176 (2026). https://doi.org/10.1038/s41746-026-02361-7

关键词: 肝脏肿瘤分割, 医学影像人工智能, 深度学习, CT 扫描分析, 混合神经网络