Clear Sky Science · zh
ROBUST-MIPS:用于腹腔镜手术器械的骨架位姿与实例分割组合数据集
为手术器械配备更智能的“眼睛”
微创手术依赖于由体内摄像机引导的细长器械。要让计算机辅助外科医生——通过跟踪器械、警示危险区域,甚至操控摄像头——它们首先必须准确知道每件器械的位置和朝向。本文介绍了 ROBUST-MIPS,一个大规模、经过细致标注的图像集合,能够教会算法更高效、更精确地追踪手术器械,为更安全、更自动化的手术铺平道路。

为什么在体内跟踪器械很难
在微创手术中,摄像机显示的是一个圆形窗口,里面是拥挤且不断变化的画面:组织、血液、烟雾、眩光以及多件重叠的器械。许多研究组试图通过对属于器械的每个像素进行标注(称为分割)来让计算机理解这些场景。尽管像素级的轮廓非常详细,但人工绘制既慢又疲劳,而且并不总是捕捉到判断器械何处起始、弯曲和结束的最有用信息。日常计算机视觉中常用的简单矩形框在这里表现不佳,因为器械细长,框起来会覆盖大量无关区域并与其他器械重叠。
用火柴人视角看手术器械
作者提出了另一种视角:与其给每个像素上色,不如用由少数关键点和直线连接构成的简单“火柴人”来描述每件器械。在他们的 ROBUST-MIPS 数据集中,每张图像中的每件器械都标注了四个标准位置:进入摄像视野的入口点(entry point)、杆身与可动或刚性末端相接处的铰点(hinge),以及最多两个可能的末端位置(tips)。这一设计适用于探针等刚性器械以及钳子、剪刀等有关节的器械。对只有单一末端或末端重叠/从视野消失的器械,额外的点会被标为缺失但保持相同格式,以便算法始终看到一致的结构。
处理被遮挡和模糊的部位
真实手术环境杂乱,器械的部分常被组织遮挡、位于摄像机圆形视野之外或完全离开画面。为此,团队为每个关键点添加了可见性标签:清晰可见、被遮挡但可自信推断、或完全未知。例如,若仅能看到杆身,则末端位置标为缺失;若末端被组织遮挡但可根据可见杆身和器械形状推断位置,则标为被遮挡并给出估计坐标。作者还允许标注者在器械明显延伸出画面时,将点放在图像边界之外,确保即使只看到一部分,火柴人结构仍能保持连通。

构建并共享一个丰富的训练场
ROBUST-MIPS 建立在早期广泛使用的数据集 ROBUST-MIS 之上,该数据集包含来自 30 例结直肠手术的 10,040 帧图像。每帧原本已有详细的器械掩码;新工作在此基础上增加了骨架标注,并通过移除不移动且对工具跟踪无益的静态相机插口来清理掩码。每帧打包包含原始图像、仅包含活动器械的精化掩码,以及描述关键点、其可见性和连接方式的文件。作者将这些信息转换为一种流行的标准格式(最初为人体姿态开发),以便许多现有算法可以以最小额外工作使用这些数据。
让数据集经受检验
为证明这些标注不仅纸面上有用,团队训练了若干领先的位姿估计模型——这些模型最初用于跟踪人体关节——来追踪手术器械。在此设定下,每个器械点被视作人体关节。由于许多器械的两个末端可互换,作者对常用评分方法进行了定制,将末端互换视为无害而非错误。他们还调整了尺寸度量方式,以便无论器械如何旋转,针对细长器械的评判都更公平。在数千张未见过的图像上,模型取得了较高的精度,表明少量精心选择的关键点足以实现可靠定位,即便存在烟雾、血液、眩光和器械重叠等干扰。
对未来手术的意义
ROBUST-MIPS 表明,将手术器械表示为简单的骨架轮廓可以在远低于像素级掩码标注成本的情况下,提供丰富且实用的信息。通过公开数据集、自定义标注软件和可直接使用的基准模型,作者为社区构建更智能的系统提供了坚实基础,使得跨不同病人和手术类型的工具稳健跟踪成为可能。从长远看,这类能力可助力更安全的导航、实时安全检查以及手术室内更直观的自动化。
引用: Han, Z., Budd, C., Zhang, G. et al. ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments. Sci Data 13, 684 (2026). https://doi.org/10.1038/s41597-026-06938-5
关键词: 手术工具跟踪, 腹腔镜手术, 位姿估计, 医学影像数据集, 计算机辅助手术