Clear Sky Science · zh

一种用于统一视网膜图像分析的门控任务注意多任务网络

2026-05-19 · 返回目录

为什么糖尿病患者需要眼部扫描

糖尿病可以在不易察觉的情况下损害眼睛后部，导致糖尿病视网膜病变，这是可预防失明的一个主要原因。定期拍摄视网膜照片可以及早发现这些损害，但没有足够的专家逐一人工检查每张图像。本文提出了一个单一的智能系统，它既能勾画出一个关键眼部结构的轮廓，又能判断疾病进展到何种程度，目的是使大规模筛查更快速、更一致、更易部署。

用一个系统替代多个独立工具

目前，读取视网膜图像的计算工具通常只专注于一项任务，例如评估疾病严重程度或勾勒视神经乳头——即神经离开眼球处的明亮圆形区域的边界。运行多个独立工具既耗时又浪费图像中共享的线索，因为视神经乳头的形状和位置与糖尿病损害常出现的位置密切相关。作者提出了一个统一模型，称为GTAM Net，它接收一张视网膜照片并同时执行两项任务：绘制精确的视神经乳头掩码，并将眼睛分为五个糖尿病视网膜病变阶段之一，从无病到最严重。

Figure 1. 一个 AI 系统在一步内读取视网膜照片，同时标记关键眼部结构并评估糖尿病性损害程度。

智能眼模型如何共享所学内容

GTAM Net 的核心思想是让各任务互相助益而不相互干扰。系统首先将视网膜图像转换为一组特征图，这些特征图在多个尺度上捕捉形状、颜色和纹理信息，从精细的血管细节到更广泛的模式。一个特殊的门控单元随后为每一层决定哪些信息应当共享，哪些应保留为仅供分割视神经乳头或分级疾病的私有信息。并行地，另一个注意力单元允许两个任务分支相互借用有用提示，使得疾病线索可以增强乳头轮廓，而对乳头及其他结构的知识又能澄清疾病分级。

平衡任务并跨多个数据集工作

训练这样的联合系统并不容易，因为某一任务很容易在学习过程中占主导地位。为避免这一点，作者让模型在训练期间估计对每项任务的不确定性，并自动为每个目标分配更多或更少的权重。他们还使用了一个特征金字塔，以同时保留小的细节和整体布局信息。GTAM Net 在五个大型公开视网膜数据集上进行了测试，这些数据集在图像质量、相机类型和患者构成上各不相同。在具有专家乳头轮廓标注的数据集上，系统的 dice 分数接近 98%，与先前的乳头分割工具持平或更好。在糖尿病视网膜病变分级上，它在若干测试集上报告的准确率约为 98% 到 99%，在相同条件下优于强有力的现有方法。

鲁棒性、局限性与图像揭示的信息

作者不仅展示了原始分数，还检查了系统成功或失败的情形。注意力图表明，在分级疾病时，模型关注可疑斑点，如微小出血和亮色沉积；而在分割时，则聚焦于乳头边缘及其邻近血管。当图像模糊、光照不佳、或出现罕见眼形或非常严重的出血时，轮廓和分级仍可能出错，且错误往往发生在相邻的严重度等级之间——哪怕对专家来说也难以区分。交叉测试（在一个数据集上训练，在另一个上评估）仅显示出适度的性能下降，这表明共享的门控设计捕捉到了通用的视网膜模式，而非单一数据集的特性。

Figure 2. 在模型内部，共享的图像特征通过门控分流到两条路径，协同细化视神经乳头轮廓与疾病分期。

这对未来眼睛筛查意味着什么

简而言之，该研究表明，经过精心设计的二合一网络可以在勾勒关键眼部结构和评估糖尿病损害方面匹配或超越独立工具，同时速度足以用于现实世界的筛查。通过以受控方式共享信息并在训练期间调整各任务的影响力，GTAM Net 在多样化的图像来源上提供了准确且相对稳定的表现。作者强调真实诊所要比策划的测试集复杂许多，人类判断仍然必不可少，但他们的结果表明，具有任务感知能力的统一模型可能成为大规模自动化眼部筛查项目的核心构件。

引用: Sajid, M.Z., Qureshi, I., Hamid, M.F. et al. A gated task-attentive multi-task network for unified retinal image analysis. Sci Rep 16, 16426 (2026). https://doi.org/10.1038/s41598-026-52418-6

关键词: 糖尿病视网膜病变, 视网膜成像, 视神经乳头分割, 多任务学习, 医疗人工智能