Clear Sky Science · zh

评估大型语言模型用于从脑部MRI报告所见生成诊断印象:一项多中心基准与阅片研究

· 返回目录

更智能的MRI报告为何对患者很重要

当你接受脑部扫描时,放射科医师必须将成千上万种灰度变化解读为明确的结论——要么指出存在异常,要么说明一切正常。这个最终的“印象”会指导有关中风救治、脑肿瘤、感染等关键决策。但阅读脑部MRI极其复杂且耗时,繁忙医院中的超负荷医生更容易出错。本研究探讨了先进的人工智能语言模型能否可靠地帮助放射科医师将书面MRI所见转化为准确、快速且一致的诊断印象。

把原始影像描述变成清晰的答案

脑部MRI生成一系列图像,放射科医师在书面的“所见”部分描述这些图像,记录病灶位置、信号强度以及是否存在肿胀等信息。真正的挑战是将所有这些细节综合为诊断印象,例如“急性梗死”或“脑脓肿”。研究人员收集了来自中国三家医院的4293份脑部MRI报告,涵盖16个诊断类别,这些类别覆盖了日常脑部疾病的95%以上。随后他们测试了10种不同的大型语言模型——先进的基于文本的人工智能系统——以评估每种模型将书面所见转化为正确诊断的能力。

Figure 1
Figure 1.

规模大、训练充分的AI模型表现最佳

团队比较了参数量从约8亿到6710亿不等的模型,这大致相当于从医学生的知识水平到专家团队的知识量的跨度。最大型号的模型DeepSeek‑R1在同时获得结构化所见和关键临床信息(如患者年龄、症状或外伤史)时,表现始终最好。在这些条件下,DeepSeek‑R1在识别特定脑部疾病的有无方面表现出高灵敏度和特异性,患者层面的准确率超过87%。较小的模型,尤其是参数低于10亿的,表现很差,通常仅能正确判断约30%的病例——远低于临床可接受的水平。

结构化和上下文为何让AI更聪明

研究人员并未仅将自由形式的文本直接输入模型。他们还使用另一个AI系统将报告重构为清晰、标准化的要素:每处病灶的位置、数量以及在不同MRI序列上的表现。加入这种结构化信息并结合简短的临床说明带来了显著差异。对于DeepSeek‑R1而言,将原始自由文本所见转换为结构化所见并加入临床背景后,灵敏度、整体准确率和汇总性能指标都有明显提升。简言之,当AI得到更干净、更有条理的信息以及一些患者背景时,表现更佳——这与人类放射科医师在报告清晰、临床问题明确时表现更好的情况相一致。

Figure 2
Figure 2.

从单一猜测到排序的简短候选列表

在现实中,放射科医师面对复杂病例时常常给出不止一个可能诊断。研究测试了两种提示方式:只要求AI给出一个诊断,或要求给出三个优先可能性并附简短解释。允许提供三个排序诊断后,性能显著提高。采用这种“鉴别诊断”方法时,正确答案在三个建议中出现的比例超过97%。这在肿瘤、出血或炎性疾病等复杂病例中尤其有用——单一的强制猜测可能误导决策,而简短且有理由的候选列表则能更有效地指导后续检查与治疗。

对繁忙放射科医师的现实影响

为验证这些改进在实际工作中的意义,作者开展了一项阅片研究,邀请六名放射科医师(3名初级、3名高级)对500份脑部MRI报告在有无DeepSeek‑R1辅助下进行解读。在AI辅助下,整体诊断准确率从约四分之三提升到超过90%,而精确率与召回率等关键质量指标也有明显改善。阅读时间也缩短,从每例约一分钟降至不足一分钟,这可能意味着每位放射科医师每年节省数十小时。收益在初级医师身上最为显著,他们的表现更接近经验丰富的专家,但研究也强调医生必须保持谨慎,不应盲目信任AI,尤其是对于某些非常微妙的病变类型(如某些脑出血)要特别注意。

这对未来脑部影像报告意味着什么

对患者来说,主要结论是:强大的基于语言的AI系统已经能够在放射科医师将复杂MRI所见转化为更清晰、更准确的诊断印象方面提供帮助,尤其是在这些系统获得良好结构化的信息和关键临床细节时。这些工具并非替代人类专业判断,而是可以作为第二双细致的眼睛,提供有理据的建议并节省时间。如果能在更广泛的环境中得到验证并安全地整合进医院系统,这类AI支持有望使脑部影像报告更迅速、更可靠且更一致——最终改善中风、肿瘤、感染及其他多种脑部疾病患者的护理质量。

引用: Wang, ML., Zhang, RP., Wu, WJ. et al. Evaluation of large language models for diagnostic impression generation from brain MRI report findings: a multicenter benchmark and reader study. npj Digit. Med. 9, 187 (2026). https://doi.org/10.1038/s41746-026-02380-4

关键词: 脑部MRI诊断, 放射学人工智能, 大型语言模型, 临床决策支持, DeepSeek-R1