Clear Sky Science · zh

通过提示引导的大型语言模型实现自动化 RECIST 肿瘤反应分类

2026-05-27 · 返回目录

这对癌症患者为何重要

在癌症治疗过程中，医生依靠影像报告来判断疗法是否有效、是否需要更换或可以停止。阅读和总结这些报告既耗时又可能出现小的错误。本研究探索了一种能理解文本的大型语言模型（属于人工智能）是否能在确保病人数据留在医院内部的前提下，安全地帮助医生将扫描报告归入标准反应类别。

医生通常如何追踪肿瘤变化

在肿瘤学中，CT 扫描常用于检查肿瘤对治疗的反应。医生通常使用一套称为 RECIST 的规则，将患者情况分为完全缓解、部分缓解、疾病稳定、进展性疾病或治疗前基线等类别。尽管许多医院对这些报告使用半结构化模板，最终关于反应的判断往往以自由文本形式出现。这意味着需要人工专家解读测量值、与早期扫描比较，并将所有信息翻译成标准类别，这一过程既繁琐又有时不够一致。

Figure 1. 离线院内 AI 阅读 CT 扫描报告并将其转化为医生可用的简明肿瘤反应类别。

研究人员要求计算机做什么

德国一所大学医院的团队测试了一种通用语言模型 LLaMA 3.3（700 亿参数）是否能在不对本地数据进行额外训练的情况下，读取真实的癌症患者 CT 放射学报告并分配正确的 RECIST 类别。他们完全在医院安全的离线基础设施内工作，确保没有患者信息离开机构。在模型看到报告之前，原始的响应标签被移除，但所有测量值和参考值保留，以便系统能够将当前肿瘤大小与早期基线或记录的最小值进行比较。

引导 AI 的不同方式

研究者尝试了三种指示模型如何工作的方式，称为提示策略。在零样本（zero-shot）方法中，模型仅收到报告和简短指令，要求输出五个类别之一。在少样本（few-shot）方法中，他们向模型展示了若干带有正确类别的报告示例片段，通过示范来教它。在链式思维（chain-of-thought）方法中，要求模型先用通俗语言逐步解释其推理过程，然后再给出最终类别，且将若干独立的推理结果组合以达成多数决。研究在 142 份报告上衡量了 AI 与人工专家相符的频率，使用准确率和标准的分类评分进行评估。

系统与人工读者的匹配程度

链式思维策略表现最佳，整体上约能正确分类五份报告中的四份，并在识别真阳性与避免误报之间取得最高的平衡。它在区分部分缓解与疾病稳定这两类常被混淆的类别方面尤其出色，并提升了对诸如完全缓解等较少见结果的识别。零样本提示的表现已经令人惊讶地好，有时甚至优于提供少量示例，这表明指令措辞方式可能比简单增加示例更重要。少样本提示对某些难识别类别有帮助，但当示例集不能充分反映真实报告的多样性时，也可能引入新的错误。

Figure 2. AI 按步解析放射学报告，推理肿瘤变化，并分配若干颜色编码的反应结果之一。

错误与局限揭示了什么

通过研究混淆矩阵（显示系统倾向于混淆哪些类别），作者发现链式思维方法产生的系统性错误更少，模式更像严谨的临床推理。然而，模型在边界情形仍然困难，例如文本未能清晰区分起始扫描与随后没有可见残余肿瘤的扫描。该研究使用来自单一机构且遵循标准化模板的报告，因此在写作风格更随意的医院中结果可能不同。研究只关注单次报告，尚未纳入跨多次随访的完整病史，而这对某些正式试验规则是必要的。

这对未来癌症护理可能意味着什么

对普通读者而言，关键结论是：一种文本阅读型 AI 可以通过核对 CT 报告中的结论是否与用于指导癌症治疗决策的数值和规则相符，来辅助放射科医生。完全离线运行系统可保护患者隐私，同时提供一种可扩展的工具，以减少人工工作量并突出不一致之处。作者强调，此类模型应当支持而非替代临床人员，并应在更多医院中验证并结合人工复核加以整合。如果谨慎开发，这类系统有助于确保扫描报告中的叙述更可靠地与影像事实及用于指导治疗的标准相一致。

引用: Mergen, M., Busch, F., Sauter, A.P. et al. Automated RECIST tumor response classification through prompt-guided large language models. Sci Rep 16, 16433 (2026). https://doi.org/10.1038/s41598-026-54979-y

关键词: 放射学 AI, 肿瘤反应, RECIST, 大型语言模型, 肿瘤科报告