Clear Sky Science · zh

在医学生教育中对DeepSeek与ChatGPT在USMLE与CNMLE的多指标对比评估

2026-03-17 · 返回目录

为什么更智能的考试助手很重要

未来的医生在开始为病人提供治疗之前必须通过严格的执业考试。与此同时，基于大型语言模型的强大聊天机器人正成为常见的学习伙伴。本文深入考察了两种此类系统——DeepSeek与ChatGPT——如何应对美国（USMLE）与中国（CNMLE）的医学执业考试，并提出了一个具有重大影响的简单问题：这些工具能否真正帮助培养安全且准备充分的医生——如果可以，需要哪些保障？

两场大型考试，两种强大工具

研究者聚焦于USMLE与CNMLE这两种国家级考试，考察内容涵盖从基础科学到临床决策等广泛医学知识。他们收集了数百道真实题目：来自USMLE样题的243题和来自CNMLE题库的300题，主题包括内科、外科、儿科、精神科等。要求查看医学影像的题目被剔除，以便让两种工具都只面对基于文本的挑战。研究团队随后以英文和中文分别询问了每个系统的两个版本——ChatGPT的GPT‑4o‑mini与DeepSeek的DeepSeek‑R1，使用模拟真实学生在备考时可能提出的简单指令。

谁答得更好，且表现多稳定？

为公平比较，研究者对每套题目对每个系统重复运行三次，然后衡量答案与标准答案一致的频率。在USMLE题目上，DeepSeek的正确率约为93%，略高于ChatGPT约90%。在CNMLE上，DeepSeek也保持领先，得分约为87%，而ChatGPT约为79%。DeepSeek在USMLE三个步骤中均优于ChatGPT，包括最复杂的临床决策部分；在CNMLE四个单元中也表现更好，尤其是在涉及大量中文基础科学与临床知识的领域。团队还检查了重复运行时工具的一致性，发现两者都具有较高的稳定性，DeepSeek再次略占优势。

“边想边说”，但有时速度太慢

现代语言模型常常逐步展示其推理过程，类似学生写出推理步骤。研究者以这些解释的字符数作为粗略衡量，来估计每个系统展示了多少“思考”。在USMLE上，两种工具相近，提供了长度相当的推理。在CNMLE上，DeepSeek给出的解释明显更长，表明在处理复杂中文医学问题时可能存在更深或更详尽的思路链。代价是速度：DeepSeek完成两套考试均耗时更长，尤其是CNMLE，而ChatGPT回答更快。换言之，DeepSeek更倾向于更高的准确率与更冗长的说明，而ChatGPT更偏向效率。

前景、陷阱与新的安全网

尽管两者得分较高——平均超过许多人类考生——系统仍会出现重要错误。在某些情况下，它们会选择听起来合理但错误的治疗方案或误解细微概念，这是所谓“幻觉”问题：模型自信地捏造或错误应用事实。与此同时，它们也展示了意想不到的长处，比如能发现本身没有正确答案的有缺陷试题。由于医学教育与患者安全密切相关，作者主张应将这些工具视为辅助者，而非权威。为支持更安全的使用，他们提出了一个技术性的“事实核查循环”，将模型与精心构建的医学知识图谱连接起来。当模型回答问题时，其断言会被分解并与指南、教科书等可信来源核对，并在展示给学习者前赋予置信度等级。

这对未来医学培训意味着什么

对非专业读者而言，信息既让人鼓舞又需谨慎。DeepSeek与ChatGPT在笔试中的表现已达到或超过许多医学生的水平，表明它们能够在复习、练习题，甚至围绕更丰富的逐步推理重新设计教学方面提供有意义的支持。然而，它们的错误——以及其得出结论方式的不透明——意味着它们不能取代人类教师或有执照的临床医师。作者设想了这样的未来：这些系统作为受严格监督的“助教教练”嵌入一个要求证据、追踪可靠性并将人类判断置于核心地位的框架中。如果构建与治理得当，这些人工智能助手可能逐步将医学教育从简单记忆转向更互动、生成性的学习——同时不忘最终目标：为真实患者提供更安全的护理。

引用: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

关键词: 医学教育人工智能, 大型语言模型, USMLE表现, 中国医学执业医师考试, 事实核查框架