Clear Sky Science · zh

用于临床决策任务的大型语言模型代理系统基准研究

2026-02-18 · 返回目录

更聪明的医疗 AI，但代价是什么？

人工智能越来越多地被期望帮助医生梳理复杂信息并做出更优决策。一项新研究提出了一个简单却至关重要的问题：当今最先进的“具代理性”的 AI 系统——设计用来逐步推理并使用在线工具——在现实风格的医学任务中，是否确实优于标准聊天机器人？它们是否值得为之付出更多时间和计算资源？

从简单聊天机器人到可执行任务的代理

大多数人将大型语言模型视为一次性回答问题的聊天机器人。具代理性的系统在这些模型基础上扩展，将其变为能够制定计划、调用外部工具（如网页浏览器或代码运行器）并协调多个专门子代理的数字“工作者”。在本研究中，研究者比较了两种这样的代理系统——Manus 及其开源同类 OpenManus——与主要 AI 实验室的领先语言模型。所有系统都接受了三类测试：在多轮对话中展开的模拟医患就诊、极为困难的医学考试与教科书问题，以及混合文本与图像的挑战，比如在病例描述的同时解读临床照片。

这些代理的实际表现如何？

在这些基准测试中，代理系统确实比其所基于的语言模型略有领先，但差距很小。在模拟诊断对话中，将 OpenManus 调整为表现得像医师助理并更积极使用工具，使其准确率较基础模型提高了约 7–9 个百分点。在一组要求高、知识密集的复杂问题上，OpenManus 再次略优于其骨干模型，并与顶级专有系统大致相当。然而绝对分数仍然有限：在一些旨在避免走捷径的最难医学问题上，即便是表现最好的代理，答对率也不到十分之一，远低于能在临床中无需监督使用的水平。

隐含代价：时间、复杂性与计算量

这些微小的准确度提升伴随着资源和工作流复杂性的高昂代价。在许多任务中，代理系统使用的文本 token 数是基础语言模型的 10 到 100 倍，响应时间通常也超过两倍。这种开销源自代理反复进行计划、网络检索、信息提取并重新考虑答案的工作方式。虽然精心设计的提示使代理工作流更精简并在工具选择上更一致，但并未消除需要多次内部步骤的本质。实际而言，每个病例都要耗费超过一分钟并需要大量计算资源的 AI 助手，在繁忙的医院或资源有限的环境中很难令人信服。

虚构细节的问题

另一个关注点是幻觉——当 AI 自信地编造未提供的患者症状或检验结果时。研究者发现几乎每个由代理处理的病例都包含某些幻觉，尤其是杜撰的患者陈述或检验数值。研究组加入了安全层来后处理代理输出，改写提示以阻止猜测，并提供正确行为的示例。这些干预几乎阻止了近 90% 的幻觉内容，并将幻觉影响最终诊断的病例比例降低到约三分之一。有趣的是，含有与不含幻觉的病例在总体准确率上并无明显差异，可能是因为虚构细节有时会触发额外的核查步骤，从而纠正最初的错误。

这对未来临床 AI 意味着什么

对非专业读者而言，结论是：当今更复杂的医学 AI 代理并不是对强大聊天机器人的魔法式升级。通过分步推理并使用在线工具，它们可以被引导取得略微更好的表现，但其当前准确性仍然偏低，对时间和计算资源的需求又过高，无法在没有严格人工监督的情况下常规用于临床。研究认为，进展的方向不仅应是将分数稍微推高，更应致力于让系统更快、资源占用更少、减少编造信息并更好地基于真实患者数据。只有在这些方面取得改进后，具代理性的 AI 才能准备好在日常医疗中安全可靠地协助临床人员。

引用: Liu, Y., Carrero, Z.I., Jiang, X. et al. Benchmarking large language model-based agent systems for clinical decision tasks. npj Digit. Med. 9, 259 (2026). https://doi.org/10.1038/s41746-026-02443-6

关键词: 临床人工智能, 大型语言模型, 医学决策支持, AI 代理, 医疗基准测试