Clear Sky Science · zh

迈向准确且可解释的基于能力评估：通过多模态人工智能与异常检测增强临床能力评估

2026-02-03 · 返回目录

为何更智能的医生培训至关重要

在医生接受急救情境训练时，他们的表现往往由在模拟场景中观察他们工作的人工考官来评定。这些评分对病人安全至关重要，但可能带有主观性、评审之间不一致，且评分粒度过粗，无法明确指出学员该如何改进。本研究引入了一种新的人工智能（AI）系统，该系统在高保真麻醉模拟中进行观看与听取，将所见所闻转化为客观且可解释的临床能力度量。目标并非取代资深教师，而是为他们提供一个更精确、公平且细致的镜头，以了解住院医师在压力下的真实行为。

从多角度观察突发事件

研究人员聚焦用于准备以色列麻醉住院医师参加国家考试的危重护理模拟。来自17家医院的90名住院医师在真实的手术室环境中，配合全身仿真模体、一名护士和一名实习生，处理危及生命的危机。每个情景分为四个阶段：初始的稳定期、快速恶化期、依据标准生命支持协议进行的积极复苏以及最终的稳定与移交。整个过程中，摄像机记录房间与病人监护仪，麦克风捕捉语音，且生命体征显示本身被数字化。经董事会认证的麻醉科医师随后为每位住院医师给出1（差）到5（优秀）的总体表现等级。

将行为转化为数据流

为了让AI能够分析这一丰富场景，团队将视频与音频转换为同步的时间序列信号。一个通道通过面部检测与视线目标估计跟踪住院医师何时将目光投向监护仪。第二个通道基于三维身体姿态估算住院医师在房间中的位置与移动。第三个通道在清除背景噪音以隔离说话者声音后标记何时发生讲话。最后，研究者通过光学字符识别直接从监护仪屏幕读取不断变化的心率、血压、呼吸频率和血氧饱和度，生成持续的生理曲线。所有这些通道逐帧对齐，呈现出住院医师如何观察、移动、说话并对病人状况作出反应的详尽、逐时刻画像。

学习何为“专家式”表现

作者并未直接教AI去复制人工评分，而是使用了一种名为MEMTO的异常检测模型，该模型最初用于识别复杂时间序列中的异常模式。首先，他们仅用最佳表现（被评为5分的住院医师）训练MEMTO，使其学习跨所有信号的时间序列中“理想”行为的样态。在建立了这一基线后，模型处理每位住院医师的模拟并在每一时刻产生异常分数，反映该时刻行为偏离专家模式的程度。这些异常分数随后被汇总并平滑映射到熟悉的1–5量表上，因此偏离专家模板越小的表现会获得越高的能力评分。

AI对良好表现的发现

多模态方法——结合视线、动作、语音与生命体征——被证明至关重要。当模型以高评分住院医师为训练对象时，其评分与专家评定密切一致，呈现出强相关性与稳定性，并能几乎按与人工考官相同的顺序对住院医师进行排序。相比之下，仅依赖单一通道（例如仅视线）则产生较弱的一致性。用最差表现训练模型也导致一致性下降，这强调基准应以专家行为为锚，而非普遍错误。为使系统决策可理解，团队采用了一种称为SHAP的解释方法，突出哪些输入对异常分数影响最大。交流与与监护仪的视线接触显得尤为重要，尤其在危机升级与积极复苏阶段，而在稳定阶段生命体征的影响力则增强。

对未来医学培训的意义

这项工作表明，AI能够将临床培训推向超越简单清单或通过/不通过评分的方向，通过捕捉学员在真实紧急情况中逐秒的实际行为来实现更细致的评估。通过将每位住院医师与由数据驱动的专家表现画像进行比较，系统可以标记交流失误、对监护仪注意力下降或对变化的生命体征反应偏离模式的情形——这些信息能在复盘环节指导更丰富、分阶段的反馈。作者强调，此类工具应作为对人工判断的补充，而非替代，且必须谨慎部署，配以严格的隐私保护和公平性检查。尽管如此，他们的结果表明了一条通往更客观、透明且具有教育价值的评估路径，能够在培训项目间推广，最终有助于提高真实世界的病人护理安全性。

引用: Gershov, S., Mahameed, F., Raz, A. et al. Towards accurate and interpretable competency-based assessment: enhancing clinical competency assessment through multimodal AI and anomaly detection. npj Digit. Med. 9, 219 (2026). https://doi.org/10.1038/s41746-025-02299-2

关键词: 临床能力评估, 医学模拟, 多模态人工智能, 异常检测, 医学教育