Clear Sky Science · zh
人工智能错误信息对初级医学生诊断准确性与置信校准的影响
为什么聪明的机器仍会误导初学者
人工智能正迅速进入课堂和临床,承诺更快的学习和更聪明的决策。但当学生依赖 AI 来理解复杂的医学问题,如果解释听起来令人信服却是错误的,会发生什么?这项针对初级医学生的研究检验了这一现实困境,结果令人担忧:具有误导性的 AI 解释会积极损害学习,而完全正确的解释往往不会像我们期望的那样大幅帮助学生。

测试三种类型的 AI 帮助
研究者在中国进行了一项随机对照试验,纳入了 111 名已接受基础科学训练但临床经验有限的初级医学生。所有学生都回答 25 道具有挑战性的、类似执业考试的多项选择题,模拟真实的注册考试情形。一组学生只看到题目。第二组看到经过仔细核查、专家认可的 AI 解释,指向正确答案。第三组看到的是 AI 风格的解释,这些解释措辞润色、看起来合理,但故意支持某个错误选项。每道题后,学生选择一个答案并对自己的信心作出评估。
错误指导比没有帮助更糟
结果显示了收益与伤害之间的明显不对称。收到误导性解释的学生成绩远低于未获得解释的学生:他们的正确率从大约每五题答对一题下降到不到每十题答对一题。相比之下,看到正确 AI 解释的学生仅比对照组略有进步,该差异在统计上并不可靠。换言之,措辞精良但错误的指导决定性地将学生推向错误方向,而措辞精良且正确的指导并未可靠地将他们的表现提升到单独工作时的基线之上。

自信的错误与“似是而非陷阱”
当研究者检查信心水平时,图景更加令人不安。任何 AI 解释——无论对错——都会使学生比无人帮助时更有把握。然而,只有正确解释组表现出健康的“校准”:正确答案对应更高的信心,而错误答案对应较低的信心。在误导组中,不论学生答对还是答错,信心都保持较高,这意味着他们无法凭借自身的确信感来区分良好推理与错误推理。详细分析显示,欺骗性的解释常常将学生引导至一个特定的错误选项:在误导组中,超过 70% 的错误答案正是 AI 微妙支持的那个选项。有些解释以“半真半假”的方式起作用,使用准确的细节来支撑一个有缺陷的结论,初学者难以挑战这些结论。
这对医学培训有何意义
这些发现呼应了关于“自动化偏差”的担忧,即人们过于依赖计算机输出而不是认真核查信息。在像医学这样依赖大量知识的领域,危险不仅是给出错误答案——更危险的是错误答案显得完全合理。研究表明,简单地把对话式 AI 作为友好导师投入学生的学习常规是有风险的,尤其当学习者经验不足无法识别细微缺陷时。作者主张医学院应从将 AI 视为全知教师的做法转变为将其作为结构化“AI 审核”训练的素材。在这些练习中,学生将练习剖析 AI 解释、将主张与可信来源核对,并学习识别流畅论证与真正可靠论证之间的差别。
这对未来医生及其工具的含义
用通俗的话说,研究结论是直白的:对于初级医学生而言,错误的 AI 解释造成的损害超过了正确 AI 解释带来的益处。误导性指导不仅降低了他们获得正确答案的几率,还让他们对错误的结论抱有错误的自信。为了保护未来的病人,教育者和 AI 设计者需要构建能迫使学生放慢速度、揭示常见 AI 失败模式并鼓励批判性核查而非盲目信任的系统和课程。目标不是拒绝 AI,而是训练下一代医生以审慎质疑的态度使用它,使智能工具成为安全医疗的伙伴,而非令人信服的错误信息来源。
引用: Teng, D., Tan, L., Cao, Q. et al. Impact of AI misinformation on diagnostic accuracy and confidence calibration in novice medical students. npj Digit. Med. 9, 356 (2026). https://doi.org/10.1038/s41746-026-02547-z
关键词: 医疗教育中的人工智能, 错误信息, 诊断推理, 学生信心, 自动化偏差