Clear Sky Science · zh
外科 RARP 副驾驶:用于机器人辅助根治性前列腺切除术的视觉语言模型
手术室更智能的帮助
现代前列腺癌手术由先进的机器人和摄像头完成,但外科医生仍需在复杂决策、快速变化的视野以及来自学员和工作人员的持续问题之间兼顾。本文介绍了一种人工智能“副驾驶”,它可以实时观看手术视频并即刻回答口头提问,类似一位知识渊博的助理。对患者而言,这意味着手术可能更安全、更一致;对外科医生而言,它预示着一个在每个手术室都能获得专家指导和教学的未来。

会看会说的数字助理
研究团队为一种特定手术构建了 Surgical RARP Copilot:机器人辅助根治性前列腺切除术,这是许多局限性前列腺癌男性的标准手术。在该手术中,外科医生通过机器人系统操作,经由体内的高清摄像头通过小切口移除前列腺。传统基于对话的人工智能系统只处理文本,无法解读手术摄像机所显示的内容。Copilot 则将计算机视觉与大型语言模型结合,使其能够“看见”手术视野,并用自然语言回答正在发生的事情、视野中有哪些器械或手术的下一步应当是什么等问题。
教会副驾驶外科知识
为了赋予 Copilot 有意义的外科专长,团队组建了专门的训练数据集,而不是依赖通用互联网图像。他们从记录的前列腺手术中收集了近 2 万帧标注图像,标记了器械、器官的位置以及手术当前的步骤。他们还添加了近似深度信息,使系统能够推断哪些物体在前方或相互接触。利用专家设计的规则,这些标注被转换为详细的文字说明,描述每帧显示的内容以及其在手术中的阶段。随后以不同“角色”(从资深外科医生到好奇儿童)的口吻提示大型语言模型,根据这些说明生成了超过一百万对问答对。另有独立模型对这些问答进行逻辑一致性检查,有缺陷的示例在训练前被筛除。

副驾驶的表现如何
训练完成后,研究团队通过多种方式对 Copilot 进行评估。在一组留出的合成问答对上,微调使模型给出至少部分正确答案的能力从约 61% 提升到 83%,完全正确答案从 0% 提升到 59%。随后人工评审者针对预录手术图像提出了 650 个问题;近七成的回答被评为完全正确。该系统还在无需额外再训练的情况下完成了经典的计算机视觉任务:仅凭单帧视频就能以 82% 的准确率识别前列腺切除术正在进行的步骤,并以 94% 的 F1 值识别手术器械,同时还估计手术剩余时间。这些结果表明,单一统一模型能够在多个任务上匹配专门工具,同时保持开放式对话能力。
将人工智能投入实时手术
最引人注目的演示发生在真实的手术室中。Copilot 部署在一台强大的边缘计算机上,直接连接到机器人手术的视频流。在一例使用与训练时不同机器人平台的实时前列腺切除术中,观摩的外科医生和工程师通过智能手机提交了 276 个问题。剔除无关和重复查询后,专家评估 Copilot 对约 77% 的剩余问题作出了正确回答——与其离线表现相当。系统在开始回复前大约半秒响应,并能生成足够快速的文本以保持交互感,同时在不确定时应用安全过滤和保守行为。
这对未来手术意味着什么
对非专业读者而言,关键信息是:现在的人工智能系统能够实时观看复杂的癌症手术,并就正在发生的事及接下来应当发生的步骤提供有用且具情境感知的回答。尽管当前的 Copilot 限于一种手术、依赖快照而非完整的视频记忆、并且尚未访问完整的病历记录,它证明了多模态人工智能可以安全地引入手术室。随着此类系统扩展到更多手术、接入更丰富的患者数据并经过严格的临床影响评估,它们有望支持培训、改善团队沟通,并最终帮助使复杂手术更安全、更透明。
引用: Bogaert, W., Remy, F., Tejero, J.G. et al. Surgical RARP copilot: a vision language model for robot-assisted radical prostatectomy. npj Digit. Surg. 1, 3 (2026). https://doi.org/10.1038/s44484-025-00003-1
关键词: 机器人手术, 前列腺癌, 外科人工智能, 视觉语言模型, 手术室辅助