Clear Sky Science · zh

用于使用基础模型检测糖尿病视网膜病变的多模态视网膜图像数据集

2026-03-10 · 返回目录

为何及早发现眼部损伤至关重要

对于糖尿病患者而言，位于眼后方的感光组织（视网膜）可能在多年间悄然受损，而视力尚未明显模糊。等到出现明显症状时，一些损伤可能已无法恢复。医生知道，定期眼部检查可以及早发现问题，但人工逐一阅读成千上万张图像既缓慢又昂贵。本研究推出了一个规模大且标注谨慎的视网膜图像集合，旨在帮助人工智能（AI）系统更准确、更可靠地学习检测糖尿病性眼病，从而为更多患者提供更早的预警。

同一眼疾的不同相机视角

眼科医生使用几种类型的相机来检查糖尿病相关的病变。标准彩色眼底照呈现一个圆形的红色视野，可见细小出血点、脂质沉积和新生脆弱血管等。超广角图像则覆盖更大范围，包括视网膜边缘区域，这里可能隐藏早期病变。第三种工具——光学相干断层扫描（OCT）则以横截面形式“切开”视网膜，显示与可能危及视力的黄斑水肿相关的肿胀和液体囊腔。每种方法揭示了同一疾病过程的不同方面，三者结合能更完整地反映眼部健康状况。

此图像集合的新意何在

现有的公共数据集推动了许多用于糖尿病眼病筛查的AI系统，但大多数仅集中于单一成像方法，并且只提供粗略标签，例如单一的总体疾病分级。有些数据包含嘈杂标签或遗漏重要病变类型，且许多数据对超广角图像或黄斑肿胀的详细信息覆盖不足。新的MMRDR数据集旨在填补这些空白。它汇集了来自三种模态——标准彩色照片、超广角图像和OCT扫描的24,460张图像，并附有丰富的专家注释。对于彩色和广角图像，医生按五级尺度评定总体病情，并记录七种具体病变类型，如血管微小膨出、出血和视网膜脱离。对于OCT扫描，医生则描述黄斑水肿是不存在、位于中心以外，还是直接影响视力中心。

图像如何被筛选与标注

作者从现有的公共竞赛数据集中提取标准彩色照片，并从一所大型中国眼科医院获取广角和OCT图像，重点关注糖尿病患者。他们剔除了模糊、光照不良或中心区域缺失的低质量图像，以确保剩余扫描在临床上有用。四位有丰富经验的眼科医师与一位高级视网膜专家基于国际指南制定了明确的分级规则。专家首先创建了参考图像集，随后其他评审在该参考集上进行练习，直到与专家判断高度一致。此后，他们独立标注了数千张图像，将有争议或不确定的病例返还给专家复核。最终集合在详尽标注与医生间高一致性之间取得平衡，使其成为可信赖的AI训练集。

用今天的AI对明日的眼部数据进行测试

研究团队随后利用该数据集评估了若干类型的先进AI模型。他们测试了最初在通用图像与文本上训练的大型视觉-语言模型、在日常照片上训练的标准图像分类器，以及已经在眼部图像上调优过的新型“基础”模型。总体来看，模型在超广角图像上表现最差——更大的视野和更复杂的模式使得准确率低于标准彩色照片。专为眼部图像设计的模型在从标准视图向广角视图迁移时表现优于通用多模态系统，表明对视网膜结构的专门知识确实很重要。当研究者在MMRDR上对一款大型多模态模型进行微调后，其性能显著提升，这表明该数据集能够教会即便是非常通用的AI系统更好地处理眼病。

这对未来眼保健意味着什么

简而言之，这项工作为学习识别糖尿病性眼部损伤的计算机提供了高质量的教学资料库。通过结合三种互补的成像方法和详细的专家标签，MMRDR数据集使研究人员能够构建并公平比较用于评定病情严重度、定位单个病变和跟踪黄斑肿胀的AI工具。虽然仅靠这些图像无法治愈失明，但它们为更可靠的自动化筛查系统奠定了关键基础，这类系统有望更早发现可能威胁视力的变化，并将专家级的眼保健服务带给更多糖尿病患者。

引用: Tang, Z., Wang, L., Guo, Z. et al. A multimodal retinal image dataset for diabetic retinopathy detection using foundation models. Sci Data 13, 639 (2026). https://doi.org/10.1038/s41597-026-07005-9

关键词: 糖尿病视网膜病变, 视网膜成像, 医学人工智能, 基础模型, 眼部OCT