Clear Sky Science · zh

基于临床常规放射学报告的随访检查自动判定：GPT-4o 的应用

2026-04-16 · 返回目录

更智能的随访扫描为何重要

当患者接受 CT 或 MRI 扫描时，故事并不止于影像本身。放射科医师还需决定是否以及何时需要随访扫描以监测肿瘤、评估可疑病灶或确认治疗效果。这些选择可能决定能否及早发现疾病，亦可能让患者暴露于不必要的辐射、成本与焦虑之中。本研究提出了一个及时的问题：现代人工智能系统 GPT-4o 能否帮助标准化这些随访决策，使患者获得一致、基于指南的照护？

信息不一致的问题

专业学会针对多种癌症和偶发发现发布了详细的重复影像检查建议。然而在日常实践中，放射科医师在随访建议上常常存在分歧：有些人倾向于迅速安排复查，另一些则更为谨慎。既有研究表明，针对类似病例，不同放射科医师建议进一步影像检查的可能性可相差近七倍。许多建议并不完全符合已发布的指南，导致一些患者接受了过多检查，而另一些则可能错过及时随访。这种不均衡的现实催生了能够温和引导临床实践走向更一致、循证决策的工具。

研究如何设计

研究者将 GPT-4o（一种用于理解和生成文本的大型语言模型）在来自两家德国医院的 100 例真实放射学病例上进行测试。所有病例均为成年患者，因癌症相关问题接受 CT 或 MRI 检查，涉及头颈、肝脏、肺和胰腺四个主要部位。对于每例病例，模型接收完整的书面报告，包括病史、影像所见和放射科医师的结论。GPT-4o 被要求完成一项任务：根据这些信息，提出具体的随访影像方式（如 CT 或 MRI）及下一次扫描的时机。一名放射科住院医师和一名有经验的专科放射医师也对每例病例给出相同的问题答案。

以指南衡量质量

为了评估这些建议，两位高级放射科医师（不知道建议来源）将所有答案与来自癌症和放射学学会的主要国际指南进行比对。他们从四个方面对每项提议进行评分：是否涵盖了所有需要随访的相关发现、所选影像技术是否适当、建议时机的准确性，以及在五分制上的总体质量评分。专家们实际上在问：该方案是否保障患者安全、遵循规范并避免不必要的检查？

AI 与人类的对比表现

在全部 100 例中，GPT-4o 的总体随访质量与有经验的放射医师相当，并优于住院医师。模型的全局质量评分中位数为 4（满分 5），与专家基本一致，且显著高于受训者。GPT-4o 在建议时机方面完全或部分正确的比例为 96%，优于住院医师（75%），并略高于专家（90%）。它在潜在有害时机错误方面也最少。模型在覆盖所有需随访发现方面达到 92%，与住院医师相仿，并在该项指标上明显优于专家。在选择合适扫描类型方面，GPT-4o 与两位人类读片者表现接近。其表现最强的领域为肺、肝和胰腺影像——这些部位的指南路径尤其标准化；所有读者在更复杂的头颈部区域的表现则稍显逊色。

对未来医疗可能的意义

研究表明，GPT-4o 可作为随访影像决策的可靠助理，其总体水平大致相当于有经验的放射医师，并在多方面优于受训者。作为决策支持工具而非替代品，这类系统可帮助减少不必要的扫描、缩短关键随访的延迟并减轻繁忙放射科的工作负担，同时使临床实践更贴近既定指南。然而，作者强调人类专家必须保持最终掌控：该模型仍可能误解报告、内部机制不透明，且研究仅涵盖两家中心的 100 例癌症相关病例。在将此类工具安全纳入日常临床工作流程之前，仍需更大规模的前瞻性试验以及安全、在地部署的实现方式。

引用: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9

关键词: 放射学随访, 大型语言模型, 医学决策支持, 肿瘤影像学, GPT-4o