Clear Sky Science · zh
评估三种用于为医学生生成临床血液学选择题的人工智能聊天机器人
为未来医生打造更聪明的试题
选择题听起来或许不够刺激,但它们默默地塑造着未来医生的能力。每一道考试题都可能影响学生如何思考真实病人的问题。本研究提出了一个及时的问题:现代人工智能聊天机器人能否帮助繁忙的医学教师更快地编写血液疾病方面的优质试题,而不牺牲质量或安全性?
人工智能如何助力试题构建
研究者聚焦于三种广泛使用的文本生成型人工智能聊天机器人。他们要求每个系统编写50道血液学多项选择题,血液学研究的对象包括贫血和白血病等血液疾病。题目需要涵盖五个常见主题,这些主题既出现在医学考试中,也常见于临床:全血细胞减少(全血细胞计数下降)、贫血、血小板减少,以及两类血液肿瘤——髓系和淋巴增殖性综合征。三台聊天机器人共计生成了150道题,平均每台系统用时不到半分钟——与手工编题相比节省了大量时间。
对AI生成题目的严格评审
如果题目有错误、令人困惑或不公平,速度再快也没有意义。为检查质量,三位有经验的血液学教师在不知道哪道题来自哪个聊天机器人的情况下,使用详细的清单对每一道题进行评分。他们在五分制上评估了科学准确性、临床相关性、措辞清晰度、错误选项的逼真程度以及总体质量。他们还判断每题是否具有适合医学生的难度水平,以及是否能够区分强生与弱生。达到25分中至少15分的题目被视为可接受,其他题目则需要修订或被拒用。
哪款聊天机器人表现最佳?
三款系统都生成了大体可靠的题目,但其中一款模型表现突出。在专家评分中,该聊天机器人在准确性、临床相关性和错误选项的可信度方面得分最高。其50道题全部达到接受门槛,且无需修改。其余两款模型仍表现良好:它们超过九成的题目足够合格,但需要做小幅润色,常见问题是某个错误选项太过明显或某个细节可表述得更清楚。总体而言,专家们一致认为这三种工具都能快速生成接近课堂使用准备状态的考试材料。
考查的是思维能力,而不仅仅是记忆
研究团队还考察了这些AI生成题目要求学生具备何种思维能力。研究者使用布鲁姆分类法——教育工作者用来划分认知技能的框架——将题目分为简单的知识与理解类,以及更高阶的技能,如应用事实、分析情境和评估选项。令人惊讶的是,聊天机器人主要生成的是高阶题目。在其中一款模型中,超过90%的题目要求学生通过临床情境推理,而不是仅仅回忆事实。三款系统中,纯记忆型题目相对较少。这一模式表明,接受大量关联文本训练的大型语言模型天然倾向于生成情境丰富、需要解决问题的题目,而非简单的记忆卡片式提示。
前景、局限与对人类合作者的需求
尽管有这些优势,研究也揭示了重要的不足。没有一款聊天机器人自发提出基于图像的题目,而在血液学中解读显微镜切片和实验室图表类的可视材料至关重要。当被直接要求生成图像题时,两款系统承认无法提供,另一款给出的是质量较低的尝试。研究还依赖专家意见而非学生的真实考试数据,因此无法完全证明这些题目在实际考试中的表现。作者强调,教师仍需核对事实、润色措辞,并确保关键基础概念得到充分覆盖。
这对未来医学培训意味着什么
对普通读者来说,结论是:人工智能不会取代医学教师,但正在成为一位强有力的助手。在本研究中,聊天机器人快速生成了大多数准确且临床现实感强的题目,帮助学生练习血液疾病相关的决策能力。尤其有一款模型生成的题目质量高到专家几乎无需修改即可使用。不过,机器忽视了较简单的知识检测,且无法单独处理可视材料。作者的结论是,最佳做法是人机协作:由人工智能承担起起草多样题目的繁重工作,而人类专家负责设计提示、补充遗漏的基础知识、核实内容并跟进不断变化的医学指南。
引用: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x
关键词: 医学教育, 人工智能, 血液学, 选择题, 聊天机器人