Clear Sky Science · zh

用于高效本地设备医学图像分割的轻量级 SwiM-UNet 与多维适配器

· 返回目录

床旁更智能的影像检查

脑部扫描可以揭示危及生命的肿瘤,但将原始图像转换为医生可直接使用的清晰轮廓仍然耗时且对计算资源要求高。本研究提出了 SwiM‑UNet,一种新算法,能在本地设备上高效运行,同时以先进水平的准确度对 3D MRI 扫描进行脑肿瘤分割,从而把精确的图像分析更靠近病床甚至移动诊疗点。

Figure 1
Figure 1.

为何肿瘤精确轮廓很重要

现代医学在手术、放疗和药物治疗规划中高度依赖影像。对于脑肿瘤,医生不仅需要确认肿瘤存在,还需要精确知道其不同组成部分的起止位置。这个任务称为分割,通常由专家对每一层切片手工标注或修订——这是一个耗时的过程,可能拖延决策且在不同专家间存在差异。基于深度学习的自动分割工具改善了这一状况,但最准确的模型往往需要大型图形处理器,使得它们难以直接在临床、特别是较小或便携设备上使用。

两类强大思路难以直接落到小型设备上

计算机视觉的近期突破主要来自两类模型。基于 Transformer 的系统(如 Swin Transformer)在捕捉整个 3D 扫描的全局模式上表现出色,推动了高性能的脑肿瘤分割器发展。然而,其核心操作——自注意力(self‑attention)——随着图像尺寸增大而代价极高,限制了其在实时或紧凑硬件上的使用。另一类较新的模型被称为 Mamba,基于状态空间模型,提供了一种巧妙的变通方案:它以近线性的时间处理序列,减少所需计算量。早期在医学影像中的试验表明,Mamba 风格模型快速且高效,但在分割质量上通常落后于 Transformer,特别是在处理复杂肿瘤形状时。

在一个设计中兼顾速度与准确性

作者旨在将两者的优势融合到单一 3D 模型中。SwiM‑UNet 保持了医学影像中广泛使用的 U 型结构——编码器负责压缩信息,解码器负责重建细节分割。在早期阶段,图像仍然大且高分辨率时,他们采用高效的 Mamba 模块以控制计算量。在网络更深层、数据已下采样后,则切换到精简的 Swin Transformer 模块,此时模型能在不压垮硬件的前提下建模长程关系。一个称为 MS‑adapter 的定制桥接模块连接这两种机制。它分别沿体积的宽、高、深方向以及通道维度观察特征,然后通过小型门控单元学习每种视角应对最终表示产生多少影响。

Figure 2
Figure 2.

用更少计算做更多事

除了这种混合结构外,团队还通过使用低秩全连接层和有意减少通道数的解码器来削减多余计算。他们测试了多种 Mamba 与 Swin 层的组合,发现将 Mamba 用在前三个编码器阶段、仅在最深层使用 Swin,能够在速度与准确性之间达到最佳平衡。在来自 BraTS 2023 和 2024 挑战的两个大型公开脑肿瘤数据集中,SwiM‑UNet 在精度和边界精细度上均优于仅 Transformer、仅 Mamba 以及此前的混合模型,同时使用了更少的浮点运算并将推理时间缩短到在现代显卡上每个扫描补丁约 45 毫秒。

为真实设备准备就绪

为检验这些改进在实验室外是否有意义,作者将模型的计算需求与典型临床边缘系统的能力进行了比较——便携 MRI 控制台、床旁计算机和手术室工作站。分析表明,与更重的 Transformer 模型不同,SwiM‑UNet 能舒适地适配此类设备的功率、内存和速度限制,常常满足实时性需求。它在一个独立的腹部 CT 数据集上也表现出色,表明该方法可超越脑肿瘤和 MRI 的应用场景。

对患者和临床医生的意义

在实践中,SwiM‑UNet 表明有可能在保持最先进分割模型精度的同时,将计算负担降到足以实现设备端运行。这可能在急诊室、乡镇医院或移动影像单元中实现更快、更一致的肿瘤轮廓生成,而无需将敏感扫描发送到远程服务器。尽管仍需进一步工作以适配不同扫描仪和环境条件,这一混合设计指向了一个未来:高质量的影像分析可以在患者所在处运行,而不仅仅是在数据中心。

引用: Noh, Y., Lee, S., Jin, S. et al. Lightweight SwiM-UNet with multi-dimensional adaptor for efficient on-device medical image segmentation. Sci Rep 16, 5807 (2026). https://doi.org/10.1038/s41598-026-35771-4

关键词: 脑肿瘤分割, 医学影像人工智能, 混合神经网络, 设备端推理, 3D MRI 分析