Clear Sky Science · zh

GoLoCo-Net：用于医学图像分割的全局-局部引导上下文注意力网络

2026-03-05 · 返回目录

更清晰地“看见”体内结构

医生越来越依赖MRI和CT扫描来理解器官随时间的运动与变化，从跳动的心脏到说话时的舌头运动。但要把这些灰度图像转化为清晰、按解剖结构着色的图谱，计算机必须精确勾画出每个结构的轮廓——这就是所谓的分割任务。本文提出了GoLoCo-Net，一种新的人工智能方法，能在不同类型的医学影像上提供更清晰、更可靠的轮廓，从而有望改善诊断、治疗计划制定以及对人体工作方式的研究。

为什么在影像上画边界如此困难

医学影像往往很复杂。器官相互接触或重叠，边缘可能模糊，运动或成像设备的限制会引入模糊和伪影。传统的计算方法基于简单规则对像素进行分组，遇到结构较小或对比度弱的情况常常失效。深度学习通过让神经网络从大规模数据中直接学习模式，极大提升了性能。然而，常见的设计要么侧重于像素的小范围邻域，遗漏远距离关系，要么放大视野以获取整体信息，但在边界处丢失精细细节。当医生需要准确的形状和尺寸测量时，例如心腔测量或术后舌头运动追踪，这种权衡变得至关重要。

融合整体视角与细节

GoLoCo-Net旨在同时捕捉图像的广阔上下文和边缘处的微小细节。其核心是一个现代的“视觉变换器”编码器，能够一次性观察整张扫描图，学习远处区域之间的关联。在此基础上，作者构建了两个独立的解码分支：一个分支聚焦于高层次理解——有哪些结构及其相互排列；另一个保留低层次信息，如纹理和清晰的边界。GoLoCo-Net并非简单地拼接这些视图，而是使用精心设计的注意力模块，使全局信息能够指导局部细节，反过来局部线索也能锐化全局视野。

新模块如何塑造视野

第一个关键模块称为上下文注意力特征增强（Contextual Attention Feature Enhancement），用于丰富高层表征。它将抽象特征经过一个U形模块，反复缩放表征尺寸，使网络能在多个尺度上观察结构。注意力机制随后突出最重要的区域，抑制变换器倾向于过度扩散关注的问题，该倾向会模糊器官边界。第二个模块名为全局引导局部特征（Global-Guide-Local Feature），则从相反方向出发：它从浅层获取细节边缘与纹理信息，并利用深层的全局信号滤除噪声与背景。额外的注意力块强调重要的通道和空间区域，从而在不被杂乱信息淹没的情况下保留小器官和薄结构。

在不同器官与扫描设备上验证效果

为了测试GoLoCo-Net，研究人员在三个差异很大的数据集上进行了评估。第一个数据集记录了言语MRI中的声道运动，其中舌头、软腭及周围组织快速运动，易受模糊和成像伪影影响。第二个包含用于测量心腔和心肌的心脏MRI。第三个是包含多个腹部器官（包括肝、肾和胰腺）的CT数据集。在这三组数据上，GoLoCo-Net均优于若干领先的卷积和变换器基模型，取得了与专家手工勾画轮廓更高的重叠评分，并更好地保留了解剖形状。即便在加入额外噪声的情况下，它仍保持鲁棒性，表明能处理不完美的真实世界数据。

对患者和临床医生意味着什么

在实践中，GoLoCo-Net提供了一种更可靠的方式，将原始扫描转化为精确的解剖图谱。对放射科医师和外科医生而言，这意味着器官和肿瘤的测量更加干净、一致。对言语科学家和临床医生而言，它可以提供更清晰的逐帧舌头与软腭运动视图，免去繁重的手工描绘。由于这些关键模块设计为可插拔进现有系统，该方法有望随着影像AI的发展被广泛采用。主要结论很简单：通过教会计算机在宏观与微观之间取得平衡，这项工作使我们更接近于更快速、更准确、更鲁棒的医学影像解读。

引用: He, Y., Miquel, M.E. & Zhang, Q. GoLoCo-Net: global-local guided contextual attention network for medical images segmentation. Sci Rep 16, 12300 (2026). https://doi.org/10.1038/s41598-026-42415-0

关键词: 医学图像分割, MRI, CT, 深度学习, 视觉变换器