Clear Sky Science · zh
评估大型语言模型从癫痫非结构化临床叙述中进行诊断推理的能力
这对患者和医生为何重要
当有人发生癫痫发作时,发作的表现与感受可以提供关于大脑内部状况的重要线索。医生利用这些描述来判断发作在大脑何处起始,以及哪些治疗方法(包括手术)可能有帮助。本研究探讨了与聊天机器人背后相同类型的人工智能——大型语言模型,是否能够可靠地解读真实世界的发作描述并支持此类诊断推理。

把发作叙述变成大脑线索
研究者聚焦于癫痫,这是一种短暂异常脑电活动引发发作的疾病。在日常诊疗中,临床医生会仔细听取患者与目击者的描述,记录诸如咀嚼动作、奇怪感觉或剧烈肢体抽动等特征。这些细节常常指向特定脑区,如颞叶或额叶。研究团队利用了一个大型公开数据集,其中超过1200条发作描述已根据手术后达到无癫痫发作状态的结果,关联到七个大致的脑区——这被视为切除了真实发作源的强有力证据。
让多种 AI 模型接受考验
研究评估了八种不同的语言模型,包括广泛使用的一般性系统和两种在医学文本上做过微调的模型。每个模型接收一条发作描述并需要输出该发作在七个脑区中每一处为起始点的可能性。研究者不仅检验了模型首选结果的正确率,还考察了模型表现出的置信度、这种置信度与现实的匹配程度,以及其书面解释的合理性。结果与一个总是选择最常见脑区的简单基线进行了比较,并与两位对病例子集进行评估的人类癫痫专家进行了对照。

提示措辞如何塑造 AI 行为
任务对模型的表述方式对结果有重大影响。当仅给出基本说明时,大多数系统的表现仅略优于随机。若向模型展示少量示例、要求逐步思考或提供专家撰写的临床推理示例以供模仿,性能会有所提升。最显著的改进来自鼓励详细推理的提示以及将多个独立答案合并以得出更稳定决策的做法。在这些更丰富的指令下,表现最好的系统在该特定任务上的准确性接近人类临床医生,同时在一致性和置信度校准方面也有所改善。
优势、盲点与人工把关
更仔细的审视揭示了重要的注意事项。临床专家审查了两款最佳模型产生的推理。其中一款,GPT-4,更频繁地展现出对症状的合理理解、对癫痫知识的准确运用和连贯的逻辑,并且更常正确引用真实的科学论文。另一款表现良好的模型 Mixtral-8×7B 有时会因错误理由得出正确结论,误读症状细节或虚构支持性事实与引用。研究还表明,表现依赖于发作描述的长度、模型被指派模仿的临床角色以及使用的语言。非常简短或非常详细的描述效果最佳,假装为专家会提高结果,而使用非英语提示可能会降低准确性。
这对未来医疗的含义
作者总结认为,在受控环境下,大型语言模型能够将非结构化的发作叙述转化为有关发作起始大致位置的有用估计。通过精心设计的提示,其表现可以接近经验丰富的临床医生,至少在将发作体征映射到宽泛脑区这项狭窄任务上是如此。与此同时,模型可能在推理有瑕疵或引用虚构来源的情况下也显得令人信服。这种前景与风险并存的局面意味着此类系统将来或许能辅助分诊或支持早期诊断思路,但必须经过彻底验证、严格监督,并作为对人类专业判断的补充而非替代。
引用: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z
关键词: 癫痫, 发作半ology, 大型语言模型, 诊断推理, 临床 AI 评估