Clear Sky Science · zh

具视觉能力的 AI 记录员在临床对话中减少遗漏：来自模拟用药史的证据

2026-02-26 · 返回目录

门诊中的更聪明数字助手

凡是在诊室里看着医生飞快敲键录入病历的人，都能看到现代医学里的一个隐性负担：文书工作。新一代“AI 记录员”承诺自动监听诊疗并草拟病历，让临床医生有更多时间与患者对话。但大多数此类工具只“听到”被说出的内容；它们看不到被展示的物品。这项研究提出了一个关乎安全的简单问题：如果 AI 记录员也能看到桌上的药瓶，会怎样？

为何“看见”与“听见”同等重要

在真实的医疗接触中，关键信息往往是视觉性的。患者会带来带有精细说明的小盒子和药瓶，演示吸入器或注射器，或展示手腕上的过敏腕带。诸如外观和姿态的细微线索也能提示其应对状况。传统的 AI 记录员只处理音频，因此那些从未被口头说出的细节——例如药瓶上的确切剂量标识——可能会丢失。当目标是构建准确的用药清单时，漏记一次剂量或混淆两个相似产品可能带来严重后果。

眼镜、视频与一种新型 AI 记录员

为了解决这一空白，研究者创建了一种具视觉能力的 AI 记录员，能够同时处理声音和图像。他们将能从临床医生视角录制视频与音频的 Ray-Ban 智能眼镜与一种能同时理解所见与所闻的先进 AI 模型配对。十名临床药师演示了 110 次逼真的用药史对话，每次涉及三到五种药物并使用真实的包装。团队用 10 个录音来微调提示（即告诉 AI 需提取何种信息的明确指令），然后锁定这些设置，在剩余的 100 个录音上进行测试。

AI 记录员的表现如何

对于每次对话，人类药师准备了一份详尽的参考清单，包括患者姓名、出生日期、过敏史、每种药物的名称、剂量强度和剂型、用药时间表、用药原因以及任何附加备注。AI 的任务是从视频中生成相同结构化的摘要。在 2,160 个单独数据点中，这个具视觉能力的记录员的正确率为 98%。在基础患者信息上表现略逊（96%），而在与药物相关的项目上（如用药说明和适应症）表现略优（均为 99%）。总共 46 个错误中大多数是“添加/错误记录”型错误——将内容记录错误，例如混淆相似的药品名或剂量强度。仅有 10 个是遗漏，即 AI 将字段留空，而这些信息实际存在。

为何加入视觉成像改变了局面

团队随后通过仅使用音轨将同样的 100 次对话再跑一次 AI，以评估视觉输入实际带来的帮助。准确率急剧下降到 81%。跌幅最大的是记录药物的剂量强度与剂型，从有视频时的 97% 降到仅音频时的 28%——这清楚表明读取标签很重要。遗漏数从有视频时的 10 个激增到仅音频时的 358 个，显示出很多缺失信息根本没有被口头说出。对于许多字段，尤其是药物名称和剂量细节，让 AI“看见”包装能显著减少信息空白和误解。

这对未来医疗可能意味着什么

尽管结果令人印象深刻，作者强调这项技术尚不能替代人工判断。该研究在受控环境下使用模拟会诊，标签清晰且光线良好，AI 仍然产生了 46 个错误，需要临床医生去发现并纠正。真实诊所更嘈杂、杂乱并存在更大差异。此外还有关于隐私、同意、成本以及录音对患者分享意愿影响的重要问题。然而，这项工作指向了一个未来：能“看”和“听”的 AI 记录员或许能减轻医学文书负担、记录更完整的用药信息，并帮助临床医生把注意力集中在最重要的事情上：他们的患者。

引用: Menz, B.D., Scarfo, N.L., Modi, N.D. et al. Vision-Enabled AI scribes reduce omissions in clinical conversations: evidence from simulated medication histories. npj Digit. Med. 9, 287 (2026). https://doi.org/10.1038/s41746-026-02494-9

关键词: AI 医疗记录员, 多模态 AI, 用药史, 临床文档记录, 智能眼镜