Clear Sky Science · zh

一种频域-空间双感知网络用于高效且精确的医学图像分割

2026-02-04 · 返回目录

为医学影像打造更锐利的“电脑之眼”

当医生查看皮肤斑点、乳腺超声或CT影像时，实际上是在回答一个关键问题：疾病精确位于何处，哪些是健康组织？答案常来自能够在图像中描出可疑区域的软件，这一过程称为分割。本文提出了一种新的人工智能系统FDE-Net，它在保持合理计算代价的同时更准确地描绘这些边界，使其更适合于真实医院环境的使用。

为何常规模型会漏掉微小病灶

目前大多数医学影像工具依赖“U形”神经网络，例如著名的U-Net，这类网络通过压缩图像以提取语义，然后再扩展回去绘制目标区域的掩码。这些网络善于捕捉清晰的边缘和纹理，但在压缩时往往对图像各部分一视同仁。结果是，微弱或很小的病灶在此过程中可能消失，尤其当它们与周围器官或组织等复杂背景融合时。现有方法大多只在原始像素空间工作，忽视了一个互补视角：图像内容如何在不同频率上分布，从宽广的平滑形状到精细的细节。

以不同“音色”聆听影像

FDE-Net首先把医学图像有点像音频信号来处理：将图像分解为描述整体结构的低频成分和捕捉边缘与细节的高频成分。其低频信息提取模块关注低频部分，这部分携带有关器官与病变形状和位置的重要线索，但常被背景组织干扰。一个专门模块，称为频域低响应区域抑制（Frequency Domain Low-Response Area Suppression），学习对看起来像无信息背景的低频区域进行抑制，同时放大更可能包含病变的区域。网络随后将这些清理后的低频与高频成分重新组合，为后续层提供更清晰、更聚焦的重要信息视图。

同时看到宏观结构与微小病灶

在U形结构的中央“瓶颈”处，FDE-Net使用了一个多头感知视觉状态空间模块。该模块不依赖计算代价很高的Transformer式注意力，而属于一种较新的模型家族——状态空间模型。它在高效处理信息的同时仍能捕获图像中远距离的关联。FDE-Net将特征送入几条并行分支，每条分支在不同尺度上观察图像，从适合定位微小斑点的小块到涵盖大器官的广阔视野。这些多尺度信号随后融合并传入状态空间块，学习不同区域与尺度之间的关联，而其计算开销仅随图像尺寸线性增长。

尊重上下文的引导性捷径

FDE-Net的另一个关键组成部分体现在如何将信息从早期层传递到后期层。传统的U形网络通常直接复制早期细节到解码器。FDE-Net则通过一个上下文聚焦注意力机制传递这些信息。该模块使用非常大但高效的卷积核，让每个像素“看到”更广的邻域，学习哪些周围区域有助于判断边界是真实的还是噪声。因而解码器接收到的不仅是清晰的边缘，还有由更大解剖结构信息支持的边缘，从而在绘制病变边界时得到更平滑、更真实的轮廓。

对真实患者的测试结果

研究人员在三个公开数据集上测试了FDE-Net：两个皮肤病变数据集、一个乳腺超声肿瘤数据集，以及一个用于多器官三维腹部CT的数据库。在所有这些数据集上，FDE-Net都能与强大的现代竞争者匹敌或超越它们，竞争者包括经典卷积网络、基于Transformer的模型和最新的状态空间方法。在一个广泛使用的皮肤病变基准上，相较于原始U-Net，它在常用的重叠评分（IoU）上提高了超过六个百分点，同时比许多新方法使用相当或更低的计算资源。它在检测小型或微弱病灶方面也表现更好，并在3D扫描中产生了更干净、更一致的器官轮廓。

这对未来临床工具意味着什么

简单来说，这项工作表明，同时关注图像的“频率视角”和病变的多尺度结构，可以在不依赖超级计算机的前提下提升计算机视觉系统的精度。通过在频域中有选择地抑制背景噪声、高效地建模跨尺度关系以及丰富网络层间的捷径，FDE-Net提供了更锐利、更可靠的肿瘤和器官分割。经过进一步优化和验证，这类设计有望推动更快速、更可信的工具问世，辅助医生进行早期诊断、治疗规划以及随访病情对治疗的响应。

引用: Chen, D., Wu, J., Zhang, XY. et al. A frequency-spatial dual perception network for efficient and accurate medical image segmentation. Sci Rep 16, 7259 (2026). https://doi.org/10.1038/s41598-026-38093-7

关键词: 医学图像分割, 深度学习, 频域, 状态空间模型, 皮肤和器官病变