Clear Sky Science · zh

近期与早期大型语言模型及儿科住院医师在儿科培训考试题目上的比较表现

2026-04-02 · 返回目录

这对医生和家庭为何重要

随着人工智能工具开始出现在医院和医学院，一个关键问题很直白：这些系统能否真正匹敌受训医生的判断，尤其在儿童健康受影响时？本研究检视了若干领先的AI语言模型在儿科考试题上的表现，以及这对未来护理与教育可能意味着什么。

用真实考试题测试AI

研究人员收集了2016年至2023年间在韩国一家大型儿童医院进行的儿科培训考试的498道题。这些考试用于评估住院医师在四年培训期间的进展。大多数题目为选择题，涵盖广泛专科领域，从新生儿护理和感染到心脏病与重症监护。大约五分之一的问题包含医学影像，如X光、扫描或临床照片，其余则仅依赖书面描述。

Figure 1. 将人工智能系统与儿科住院医师在测试儿童健康知识的书面考试题目上进行比较。

研究如何比较人类与机器

测试了六个知名的AI语言模型，代表三大系统家族，每个家族包含两代：早期版本与具有视觉能力的近期版本。模型读取完整的考试册，而不是单题输入，因此需自行识别哪些部分是题干、哪些是选项、哪些是图像。题目原以韩语书写并夹杂英文医学术语，研究组提供了经仔细校对的翻译。对住院医师与AI均采用相同评分规则：答案若与官方解答或可接受的同义项匹配即计为正确。为评估系统稳定性，每套测试运行五次，并计算各次结果的一致性。

AI与儿科住院医师的对比表现

表现以答对题目的比例来汇总。正如预期，人类分数随培训年级上升：一年级住院医师答对略高于半数的题目，而四年级住院医师约达到70%。近期的AI模型总体表现更好，在所有题目上得分约为78%，明显优于最高年级的住院医师。早期AI版本的表现则与资深住院医师相当。当研究仅聚焦文本题时，近期模型比四年级住院医师高出约10个百分点。AI系统在多次运行中也非常稳定，分数几乎相同。

Figure 2. 在回答儿科考试题目时，AI模型对文本题的处理优于基于图像的题目。

AI在图像题上的短板

一旦涉及医学影像，情况便有所不同。在含有图像的问题上，没有一个AI系统超过资深住院医师。尽管新一代模型优于前代，在这些视觉题目上达到了约中等70%上下的准确率，但其在图像题上的表现仍落后于其在纯文本题上的强劲成绩。这一模式在不同类型的影像（包括X光、扫描和临床照片）以及广泛的儿科主题中均有体现。研究结果与其他研究一致：语言模型在阅读与基于文本的推理上表现出色，但对医学影像，尤其是儿童影像的理解能力仍然有限。

对临床护理与培训的含义

作者认为，这些结果对教育层面令人鼓舞，但对直接临床应用则需持谨慎态度。书面考试上高且稳定的分数表明，这类系统可作为有用的学习伙伴，为儿科受训者提供快速的练习题与解析。然而，在真实患者面前，信息更混乱、决策更复杂且影像解读至关重要——在多选题上表现优异并不能保证临床上的安全性。简言之，今天的多模态AI工具在书面儿科考试上已能与资深住院医师匹敌，但在图像密集的任务上仍有不足，尚不能取代临床中的人类判断。

引用: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

关键词: 儿科, 大型语言模型, 医学考试, 临床决策支持, 医学教育