Clear Sky Science · zh

在医学生教育中对DeepSeek与ChatGPT在USMLE与CNMLE的多指标对比评估

· 返回目录

为什么更智能的考试助手很重要

未来的医生在开始为病人提供治疗之前必须通过严格的执业考试。与此同时,基于大型语言模型的强大聊天机器人正成为常见的学习伙伴。本文深入考察了两种此类系统——DeepSeek与ChatGPT——如何应对美国(USMLE)与中国(CNMLE)的医学执业考试,并提出了一个具有重大影响的简单问题:这些工具能否真正帮助培养安全且准备充分的医生——如果可以,需要哪些保障?

Figure 1
Figure 1.

两场大型考试,两种强大工具

研究者聚焦于USMLE与CNMLE这两种国家级考试,考察内容涵盖从基础科学到临床决策等广泛医学知识。他们收集了数百道真实题目:来自USMLE样题的243题和来自CNMLE题库的300题,主题包括内科、外科、儿科、精神科等。要求查看医学影像的题目被剔除,以便让两种工具都只面对基于文本的挑战。研究团队随后以英文和中文分别询问了每个系统的两个版本——ChatGPT的GPT‑4o‑mini与DeepSeek的DeepSeek‑R1,使用模拟真实学生在备考时可能提出的简单指令。

谁答得更好,且表现多稳定?

为公平比较,研究者对每套题目对每个系统重复运行三次,然后衡量答案与标准答案一致的频率。在USMLE题目上,DeepSeek的正确率约为93%,略高于ChatGPT约90%。在CNMLE上,DeepSeek也保持领先,得分约为87%,而ChatGPT约为79%。DeepSeek在USMLE三个步骤中均优于ChatGPT,包括最复杂的临床决策部分;在CNMLE四个单元中也表现更好,尤其是在涉及大量中文基础科学与临床知识的领域。团队还检查了重复运行时工具的一致性,发现两者都具有较高的稳定性,DeepSeek再次略占优势。

“边想边说”,但有时速度太慢

现代语言模型常常逐步展示其推理过程,类似学生写出推理步骤。研究者以这些解释的字符数作为粗略衡量,来估计每个系统展示了多少“思考”。在USMLE上,两种工具相近,提供了长度相当的推理。在CNMLE上,DeepSeek给出的解释明显更长,表明在处理复杂中文医学问题时可能存在更深或更详尽的思路链。代价是速度:DeepSeek完成两套考试均耗时更长,尤其是CNMLE,而ChatGPT回答更快。换言之,DeepSeek更倾向于更高的准确率与更冗长的说明,而ChatGPT更偏向效率。

Figure 2
Figure 2.

前景、陷阱与新的安全网

尽管两者得分较高——平均超过许多人类考生——系统仍会出现重要错误。在某些情况下,它们会选择听起来合理但错误的治疗方案或误解细微概念,这是所谓“幻觉”问题:模型自信地捏造或错误应用事实。与此同时,它们也展示了意想不到的长处,比如能发现本身没有正确答案的有缺陷试题。由于医学教育与患者安全密切相关,作者主张应将这些工具视为辅助者,而非权威。为支持更安全的使用,他们提出了一个技术性的“事实核查循环”,将模型与精心构建的医学知识图谱连接起来。当模型回答问题时,其断言会被分解并与指南、教科书等可信来源核对,并在展示给学习者前赋予置信度等级。

这对未来医学培训意味着什么

对非专业读者而言,信息既让人鼓舞又需谨慎。DeepSeek与ChatGPT在笔试中的表现已达到或超过许多医学生的水平,表明它们能够在复习、练习题,甚至围绕更丰富的逐步推理重新设计教学方面提供有意义的支持。然而,它们的错误——以及其得出结论方式的不透明——意味着它们不能取代人类教师或有执照的临床医师。作者设想了这样的未来:这些系统作为受严格监督的“助教教练”嵌入一个要求证据、追踪可靠性并将人类判断置于核心地位的框架中。如果构建与治理得当,这些人工智能助手可能逐步将医学教育从简单记忆转向更互动、生成性的学习——同时不忘最终目标:为真实患者提供更安全的护理。

引用: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

关键词: 医学教育 人工智能, 大型语言模型, USMLE表现, 中国医学执业医师考试, 事实核查框架