Clear Sky Science · zh
用于白内障严重程度评估与诊断的细粒度眼底图像数据集
为什么更清晰的眼科检查很重要
白内障是全球导致失明的主要原因,尤以老年人居多。然而,许多人只有在视力下降到足以影响日常生活时才发现问题。这篇论文介绍了一个经过精细标注的眼底照片集合和一个用于评估白内障严重程度并以通俗语言解释判定依据的人工智能(AI)框架。通过将单张眼底图像转化为关于晶状体混浊和视觉质量的详细“成绩单”,该工作旨在将早期、准确的白内障评估扩展到远超专业眼科门诊的范围。
从眼后部看得更清楚
研究者并未直接拍摄混浊的晶状体,而是聚焦于眼底图像——即视网膜(眼后部的感光层)的彩色照片。当晶状体变混浊时,这些图像会变得黯淡模糊,血管褪色,关键区域变得难以辨认。医生已经在临床上非正式地使用这些线索,但直到现在,尚未有公开数据集将图像中的细微变化与细粒度的白内障严重度评分和专家书面解释关联起来。新的白内障严重度与诊断图像数据集(CSDI)填补了这一空白,为 AI 模型提供了模仿专家判断所需的丰富指导。

构建一个丰富注释的眼底图像集合
CSDI 基于 2023 至 2024 年间在北京一家大型眼科医院采集的 187 张眼底图像。所有图像均使用相同的相机和设置拍摄,以尽量减少技术差异。两位资深眼科医生首先筛查图像,剔除曝光不良、部分遮挡或受其他眼病影响的图像。对每张保留的图像,他们评价了整体颜色与清晰度、视盘及其表面血管的锐利程度、中心黄斑区域的定位难易度,以及视网膜血管可见分支的数量。这些观察结果随后被提炼为数值评分和结构化的书面诊断。
从简单标签到详尽的白内障“记分牌”
团队没有停留在白内障的二元判断上,而是创建了一个带一位小数的 0–10 严重度量表。接近零的分数表示眼底图像不受白内障影响;中间区间的分数对应轻度到中度的模糊,可能需要更密切随访;高分则表明图像严重退化,通常与显著视力问题和可能需要手术相一致。为支持一致的 AI 训练,研究者还提供了主要眼底区域的自动轮廓以及视盘的人工轮廓和可见性标志。每张图像都配有对应的英文和中文诊断句子,按固定顺序描述颜色偏移、模糊和细节丢失,为模型提供专家推理可遵循的模板。

教会视觉-语言 AI 像眼科专家一样工作
基于该数据集,作者测试了一个以多模态大型语言模型为基础的新诊断框架——此类系统同时处理图像与文本。模型接收一张眼底照片和一条“以眼科医生身份行事”的简短指令,然后给出严重度评估和叙述性解释。团队在两项任务上评估了商业与开源模型:将每例归入五个严重度档(从正常到严重)之一,以及生成与专家措辞相匹配的诊断描述。随后他们使用高效技术对若干开源模型进行微调,使其可在医院网络内运行,将患者数据留在本地,同时达到甚至超过大型商业系统的性能。
这对患者和医生意味着什么
对普通读者而言,核心信息是:单张眼底照片现在可以被转化为对白内障影响的细致描绘,而不仅仅是粗略的“有或没有”。CSDI 数据集及其代码已免费提供,使全球研究者和临床医生能够构建并比较使用与眼科专家相同表达方式的 AI 系统。从长远看,此类工具可支持医生稀缺社区的远程筛查,减少临床医生间的分歧,并帮助患者理解为何建议或不建议手术——为一种以丧失清晰度为特征的疾病提供更清晰的洞见。
引用: Xie, Z., Ao, M., Tang, H. et al. A fine-grained fundus image dataset for cataract severity assessment and diagnosis. Sci Data 13, 418 (2026). https://doi.org/10.1038/s41597-026-06684-8
关键词: 白内障, 眼底成像, 医疗人工智能, 视觉-语言模型, 眼科数据集