Clear Sky Science · zh

在外科和介入视频分析中比较人工智能与医护人员表现：系统综述与荟萃分析

2026-03-06 · 返回目录

手术室里的更聪明之眼

每年都有数以亿计的人接受由视频引导的手术和微创操作——比如结肠镜检查、微创手术，或将微型摄像头伸入血管内。在这些时刻，医生在屏幕上识别出细微警示信号的能力，往往决定了能否早期发现癌变。本文提出了一个关乎未来每位患者的重要问题：在分析外科与介入视频时，人工智能系统的表现与临床医师相比如何？两者协同工作时又会发生什么？

为海量手术视频带来秩序

现代医学记录了大量的手术和操作视频，从消化道内镜到机器人辅助手术不一而足。这些录像信息丰富：结肠中的微小息肉、胃或食管的早期肿瘤、必须回避的精细神经，或复杂手术中的关键步骤。研究者们一直在训练人工智能系统扫描这些影像、标记可疑区域，甚至识别外科医生在手术中的阶段。然而直到目前，多数研究还是把人工智能和医生放在非现实的“单挑”对比中，而没有探讨这种技术在临床上更现实的用途——作为站在临床一侧的辅助工具。本综述旨在系统地收集并分析跨专业领域中分散的证据。

研究者考察了什么

研究团队检索了主要的医学与工程数据库，起始检索结果近3.8万篇论文。经过严格筛选——仅纳入在真实外科或介入视频上使用人工智能并直接与医护人员表现比较的原始研究——最终仅剩146项研究。这些研究涵盖了广泛的操作，尤其是胃肠道内镜，同时也包括肺、甲状腺、脑、心脏和泌尿系干预。大多数研究使用现代深度学习方法，例如卷积神经网络，训练其检测疾病、识别解剖结构、评估肠腔清洁度或识别手术步骤。其中有76项研究报告了足够的细节，使作者能够汇总结果并计算人工智能与人类的正确与错误率。

单独的人工智能对比医生，以及人工智能作为助手

当研究者将人工智能与在相同视频上不借助系统的临床人员比较时，人工智能系统通常能发现更多真实存在的问题（敏感性更高），而不会引起更多的误报（特异性相似）。这一模式在模型测试于熟悉的数据和面对外部新数据集时均成立。然而，最具临床意义的发现来自将人工智能作为辅助工具的场景。在广泛的任务中，能够看到人工智能建议的临床人员，比单独操作的人更擅长发现疾病，也更少将正常组织误判为异常。对于非专家（如受训者）来说，从人工智能指导中获益尤为显著；他们的提升最大。对于经验丰富的专家而言，人工智能辅助与人工智能单独使用的表现大致相当，这表明在专家手中，人机组合可以达到最佳独立算法相当的水平。

实验室条件与现实临床之间的差距

尽管这些数据令人鼓舞，综述指出了人工智能目前测试方式与其在真实临床环境中必须发挥作用之间的差距。许多研究通过剔除模糊或低质量的视频帧来“净化”数据，然而现实的手术室和内镜室常常恰恰需要处理此类不完美画面。还有研究只分析孤立的静态帧而非连续视频，从而回避了追踪运动与时间进程的挑战。很少有研究在床旁实时评估人工智能，并且大多数依赖于可能在资源有限的医院不可用的高端设备。报告规范也不一致：关于模型如何调整与验证的关键细节常常缺失，使其他团队难以复现或公平评估这些结果。

构建值得信赖的人机协作关系

作者主张，外科与介入医学中的人工智能应从一开始就以临床人员的合作伙伴身份进行开发和测试，而非替代者。这意味着需要设计贴近真实世界情况的研究，在中心之间共享多样化的视频数据集，并采纳清晰的报告标准，以便其他团队能够验证并改进已发表的工作。同时，这也要求培训临床人员理解人工智能的优势与偏差，而不是盲目信任或一概否定其建议。尽管荟萃分析显示人工智能在许多基于视频的任务中已能与未受助的人类表现相匹敌或更优，但最有意义的益处在于它如何能提升人的判断力。对患者而言，应得出的结论不是机器将接管手术室，而是经过精心设计的人机团队可能使手术更安全、诊断更早、结局更好。

引用: Rafati Fard, A., Williams, S.C., Smith, K.J. et al. Comparing artificial intelligence and healthcare professional performance in surgical and interventional video analysis: a systematic review and meta-analysis. npj Digit. Med. 9, 323 (2026). https://doi.org/10.1038/s41746-026-02401-2

关键词: 外科视频人工智能, 计算机辅助内镜, 人机协作, 医学图像分析, 临床决策支持