Clear Sky Science · zh

具有深度拆分卷积和多维变换器的双分支注意力网络用于医学图像分割

2026-03-19 · 返回目录

为医生带来更清晰的视野

现代扫描可以以惊人的细节揭示肿瘤、血管堵塞和受损器官，但将这些灰白图像转换为计算机可理解的清晰轮廓仍然出乎意料地困难。医生在外科计划、疗效追踪和避免失误时需要器官及病变组织的精确边界。本研究提出了一种新的人工智能系统，称为 D3T-Net，它比许多领先方法更准确、更可靠地绘制这些边界，可能减轻放射科医师的工作负担并提高诊断信心。

为什么在医学影像上画线如此困难

当放射科医师查看 CT 或 X 光图像时，他们在脑中将重叠结构分离、忽略噪声并推断缺失的边缘。传统计算方法对此很难应对，尤其是在器官形状因人而异或肿瘤边界模糊时。早期基于卷积神经网络的系统擅长捕捉局部纹理和边缘，但它们通常只看到很小的邻域，这使得它们容易错过区分微弱肿瘤边缘与正常组织所需的更广泛上下文。另一方面，新型“变换器”模型善于捕获整幅图像的长程关系，但往往忽略了微小病变或细薄边界等精细细节。

两种互补的观察方式

D3T-Net 通过将这两种观察方式结合到一个紧密协同的网络中来应对这一挑战。一个分支像传统图像分析器，聚焦于小块以捕捉细腻纹理和清晰边缘。它采用“深度拆分”策略：将输入的图像特征划分为多个并行流，分别处理，然后通过注意力机制融合，决定哪些流携带最有用的结构信息。另一个分支更像全局观察者，使用变换器式注意力比较图像中相距较远的部分，理解区域之间的关系。它不仅跨图像平面进行观察，还跨特征通道考察，使其能够同时捕捉物体的位置与其外观模式如何组合在一起。

让两个分支协同工作

仅仅并行运行两个分支还不够；它们必须以智能的方式交换信息。在 D3T-Net 的编码器部分，一个特殊的交互模块从多个方向检查图像模式，利用池化和注意力突出最具信息量的结构——如器官轮廓或病灶核心——并在局部与全局分支之间共享这种强调。在解码器部分，即最终分割图被构建的地方，交叉注意力机制学习如何组合每个分支学到的内容，重组特征，使全局上下文锐化局部边缘、局部细节精炼广域图像。多尺度跳跃连接将早期高分辨率阶段的信息直接传递到后期阶段，帮助系统跟踪可能被遗失的小目标和微妙边界。

在器官、皮肤和肺部上的测试

研究者在三类非常不同的医学任务上测试了 D3T-Net：腹部 CT 扫描中的器官轮廓描绘、临床照片中的皮肤病变描画，以及胸片中的肺部分割。在标准的准确性和边界清晰度指标上，D3T-Net 持续优于包括著名 U-Net 变体和基于变换器的混合模型在内的一系列先进系统。它在保持器官轮廓连续性、正确分离相邻结构以及捕捉小型或低对比目标（如胆囊或不规则皮肤病变）方面表现尤为突出。重要的是，这些提升并未带来极端的计算时间增加：模型的处理成本仍与许多广泛使用的网络相当，使其在临床部署中具有可行性。

这对患者和临床医生意味着什么

简单来说，研究表明让算法同时在局部和全局进行“思考”能在医学图像上产生更清晰的器官与病灶轮廓。通过精心协调注重细节的分支与具备上下文感知的分支，D3T-Net 能比许多现有工具更准确地区分健康与异常组织。它不会取代放射科医师，但可作为强大的辅助工具——自动预分割扫描、标记微妙病变并为后续任务（如三维规划或疗效监测）提供更可靠的掩模。随着类似的双视角设计应用于其他成像问题，患者可能受益于更快速、更一致且更个性化的护理。

引用: Li, D., Yuan, C., Yao, Y. et al. Dual-branch attention network with deep split convolution and multi-dimensional transformers for medical image segmentation. Sci Rep 16, 14238 (2026). https://doi.org/10.1038/s41598-026-44413-8

关键词: 医学图像分割, 深度学习, 变换器网络, 肝脏与器官分析, 计算机辅助诊断