Clear Sky Science · zh

多模态大语言模型在罕见眶病检测中的序贯敏感性分析

2026-02-20 · 返回目录

为什么更快地回答罕见眼部问题很重要

影响眼眶（眼睛周围的骨性腔隙）的罕见疾病可能会缓慢夺走视力，甚或危及生命，但它们以难以诊断著称。许多患者在确诊前需要多年辗转于不同医生之间。本研究考察了一种新型人工智能（AI）是否能通过查看眼部照片并读取基本临床信息，帮助医生更早、更准确地发现这些罕见的眶部疾病。

在普通眼部照片中识别罕见疾病

研究者聚焦于三类重要的眶部问题：甲状腺相关眼病、眶部炎症和眶部肿瘤。所有这些疾病都可能改变眼睛及周围组织的外观，使得简单的外部眼部照片成为基于计算机筛查的有希望起点。团队从中国、新加坡和泰国的医院汇集了两套大型图像集，覆盖若干种族群体。第一套数据集包含近七千张单眼照片，混合了健康眼、眶部疾病和其他眼病。第二套较小的数据集仅包含确诊为眶部疾病的患者，并附有年龄、性别、种族和症状等额外信息。

为医生设计的两步式AI助手

第一步，团队对一种称为CLIP的视觉-语言模型进行了微调，使其像一位智能分诊护士。给定单张眼部图像，CLIP学会将其归入三大类：健康、眶部疾病或其他眼病。训练后，该模型约能正确分类九成左右的图像，明显优于若干广泛使用的深度学习图像模型以及未经针对该任务调整的新型多模态系统。这表明针对眶部照片定制AI非常重要，即便是轻量级模型在精心调优后也能表现良好。

分层信息以提高诊断准确性

第二步中，研究者测试了多模态大语言模型GPT‑4o作为虚拟专家，判断患者属于哪三类罕见眶病。为此，团队进行了“序贯敏感性”实验，逐步向模型提供更多信息以观察每一项信息的帮助程度。当GPT‑4o仅看到眼部照片时，其首选猜测的正确率不到14%，且正确答案出现在其前五个猜测中的比例只有约四分之一。加入患者的主要主诉（例如复视、眼球突出或疼痛）后，准确率显著跃升，尤以甲状腺相关眼病和眶部肿瘤为甚。纳入种族背景对肿瘤病例有较小但有意义的提升，可能反映了现实中不同人群易发不同疾病的差异。

教AI更像临床医生那样思考

团队随后用一种结构化的“推理提示”引导模型，模拟眼科医生检查面部的流程：检查眼位、眼睑、结膜（眼白）、角膜、虹膜、泪腺、周围皮肤及双侧是否对称。特别针对眶部炎症，这种有意的逐步描述提升了模型首选诊断的准确率，表明引导AI遵循类人检查套路能够揭示细微模式。最后，研究者通过把CLIP的三类分诊结果作为额外线索输入GPT‑4o，构建了一个AI“代理”。这一组合使正确诊断出现在前五名的概率总体上升至约85%，对甲状腺相关眼病甚至超过97%，但对眶部炎症的帮助较小，甚至有轻微下降，这可能因该类病例的数据更有限且更为多样。

帮助医生沟通与制定护理计划

除了命名疾病之外，研究者还请眼科医生根据可读性、完整性、准确性和安全性对AI生成的病历报告与检查建议进行评估。专家们总体认为这些报告易于理解、内容大体完整且基本正确，仅有少量细节缺失和少数可能带来风险的建议。所推荐的随访检查清晰且通常适当，尽管尚不足以在无人监督下直接使用。综合来看，这些结果表明该类模型已经能够在帮助临床医生解释发现和概述合理后续步骤方面发挥作用。

对罕见眼病患者意味着什么

这项工作表明，当AI同时获得影像和关键临床线索——症状、背景信息以及一种引导性的检查方式时，它可以成为发现罕见眶病的强有力助手。虽然它不能取代受过训练的专家，且仍需在更大、更具多样性的前瞻性人群中验证，但这种两阶段系统未来有望在普通相机或移动设备上运行。它可以标记需要紧急专家评估的人，缩短许多患者漫长的确诊历程，并通过清晰、可读的报告支持医生，最终提高保全视力与健康的机会。

引用: Lei, C., Ji, K., Zhao, C. et al. Sequential sensitivity analysis of multimodal large language models for rare orbital disease detection. Commun Med 6, 175 (2026). https://doi.org/10.1038/s43856-026-01447-3

关键词: 眶部疾病, 人工智能, 眼部影像, 多模态模型, 罕见病