Clear Sky Science · zh

DeepSeek在放射科住院医师教学中生成在训考试题目的表现

· 返回目录

为什么更聪明的试题很重要

医学影像的住院医生在训练期间经常参加考试,以检查他们的知识水平以及诊疗病人的能力。出题需要大量专家时间,教学单位正在考虑人工智能工具是否能分担这项工作。本研究考察了一种名为DeepSeek的大型语言模型能否通过为放射科住院医师编写选择题来承担部分工作,以及在哪些方面仍然需要人类专家的明确介入。

Figure 1. 人工智能帮助放射科教师出题,同时受训医生使用这些题目更高效地学习。
Figure 1. 人工智能帮助放射科教师出题,同时受训医生使用这些题目更高效地学习。

研究者想要弄清的内容

研究团队在中国聚焦放射科培训的一个关键环节:每年跟踪住院医师进展的在训考试。他们比较了两套对应的试题。一套由遵循国家培训标准的资深放射科医生撰写,另一套由DeepSeek语言模型使用精心设计的提示(指定主题、受训者水平和题型)以中文生成。所有题目均须遵循相同规则,并由一名高级放射科医生筛查以确保其准确和公平,随后才投入使用。

考试实验如何进行

从这些题库中,研究者随机挑选了14道AI题和14道专家题,将它们混合成一份28题的在线考试。40名处于二或三年级的放射科住院医师参加了这次不开卷的考试。对每一道题,他们选择一个答案,猜测该题是来自DeepSeek还是人类专家,并对题目的难度、与教学大纲的契合度、整体质量以及临床故事的真实性进行评分。这样的设计不仅让团队比较得分,也比较了题目在学习者心中的感受。

Figure 2. 比较人工智能与人工撰写的问题在简单事实与复杂病人病例上的差异,以显示各自最适合的应用场景。
Figure 2. 比较人工智能与人工撰写的问题在简单事实与复杂病人病例上的差异,以显示各自最适合的应用场景。

人工智能与人工出题相当的方面

总体上,住院医师对由DeepSeek或专家撰写题目的答对率大致相同,而且他们并不擅长区分题目来源。对于最简单的题型——针对基础事实和明确规则——DeepSeek出的题目表现与人工题目非常相似。测试中使用的客观指标,例如题目区分强弱学生的能力,也表明这些来自AI的基础知识题总体上是可靠的。这意味着人工智能可以帮助构建大量强化核心概念的直白题库,从而减轻教育者的工作负担。

仍需人工判断的领域

当题目涉及更丰富的病人故事和更难的决策时,情况就不同了。对于带有简短临床情境的中等复杂度题目,住院医师对AI题和专家题的正确率相似,但他们评价专家版本更真实且略感更难,尤其是那些有更多实际经验的高级住院医师。对于基于多步病例系列和需要判断的最高复杂度题目,住院医师在专家撰写的题目上得分明显高于DeepSeek生成的题目。受训者,尤其是年资较浅者,更容易被AI生成那种较为薄弱、不够真实的临床情境所误导或混淆。

人类与人工智能如何协同工作

作者建议采用分层方法。DeepSeek和类似工具适合起草大量结构良好的基础题目,覆盖标准事实和定义;而人类专家应继续负责那些测试医生如何在不确定性中思考、权衡选项并在真实临床情境中应用价值判断的题目。人工智能也可以帮助审阅者识别较弱的题目,同时专家提供只有在照料病人中才能获得的细腻理解。在明确边界和严格监督下,将人工智能与专家判断结合起来,既能提高试题构建的效率,也能更好地衡量真正重要的能力。

引用: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

关键词: 放射科教育, 考试题目, 人工智能, 大型语言模型, 医学培训