Clear Sky Science · es

ROBUST-MIPS: Un conjunto de datos combinado de pose esquelética y segmentación por instancias para instrumentos laparoscópicos

· Volver al índice

Ojos más inteligentes sobre los instrumentos quirúrgicos

La cirugía por orificio utiliza instrumentos largos y delgados que se guían mediante cámaras dentro del cuerpo. Para que los sistemas informáticos asistan a los cirujanos —ya sea rastreando herramientas, advirtiendo de zonas de riesgo o incluso controlando cámaras— primero deben saber exactamente dónde está cada instrumento y cómo está orientado. Este artículo presenta ROBUST-MIPS, una gran colección de imágenes etiquetadas con cuidado que enseña a los algoritmos a seguir los instrumentos quirúrgicos de forma más eficiente y precisa, allanando el camino hacia operaciones más seguras y más automatizadas.

Figure 1
Figure 1.

Por qué es difícil seguir las herramientas dentro del cuerpo

Durante la cirugía mínimamente invasiva, la cámara muestra una ventana circular hacia una escena abarrotada y cambiante: tejido, sangre, humo, reflejos y varios instrumentos que se solapan. Muchos grupos de investigación han intentado que los ordenadores comprendan estas escenas señalando cada píxel que pertenece a una herramienta, un proceso llamado segmentación. Aunque muy detallados, esos contornos píxel a píxel son lentos y fatigosos de dibujar para las personas, y no siempre capturan la información más útil para saber dónde empieza, se dobla y termina una herramienta. Los rectángulos simples, comunes en la visión por ordenador cotidiana, funcionan mal aquí porque los instrumentos son largos y finos, de modo que una caja que los rodea cubre mucha área irrelevante y se solapa con otras herramientas.

Una vista tipo muñeco de palo de los instrumentos quirúrgicos

Los autores proponen un punto de vista distinto: en lugar de pintar cada píxel, describir cada instrumento como un simple “muñeco de palo” formado por unos pocos puntos clave conectados por líneas rectas. En su conjunto de datos ROBUST-MIPS, cada herramienta en cada imagen está etiquetada con cuatro ubicaciones estándar: donde entra en el campo de visión de la cámara (el punto de entrada), donde el eje se une a la punta móvil o rígida (la bisagra), y hasta dos posibles posiciones de la punta. Este diseño funciona tanto para herramientas rígidas, como sondas, como para las articuladas, como pinzas y tijeras. Para herramientas que solo tienen una única punta, o para aquellas cuyas puntas se solapan o desaparecen de la vista, el punto añadido se marca como ausente pero se mantiene en el mismo formato, de modo que los algoritmos siempre ven una estructura coherente.

Tratando partes ocultas y ambiguas

Las operaciones reales son desordenadas, y partes de un instrumento a menudo quedan ocultas tras el tejido, fuera de la vista circular de la cámara o completamente fuera de cuadro. Para manejar esto, el equipo añade una etiqueta de visibilidad a cada punto clave: claramente visible, oculto pero puede estimarse con confianza, o totalmente desconocido. Por ejemplo, si solo se ve el eje, las ubicaciones de las puntas se marcan como ausentes; si una punta está detrás del tejido pero su posición puede inferirse a partir del eje visible y la forma de la herramienta, se marca como ocluida con coordenadas estimadas. Los autores incluso permiten a los anotadores colocar puntos justo más allá del borde de la imagen cuando el instrumento continúa claramente fuera de cuadro, asegurando que el “muñeco de palo” permanezca conectado incluso cuando solo se vea una parte.

Figure 2
Figure 2.

Construir y compartir un terreno de entrenamiento rico

ROBUST-MIPS se construye sobre un conjunto de datos anterior de uso extendido llamado ROBUST-MIS, que contiene 10.040 fotogramas de 30 cirugías colorrectales. Cada fotograma ya venía con máscaras detalladas de las herramientas; el trabajo nuevo añade las etiquetas esqueléticas y limpia las máscaras eliminando los puertos de cámara estáticos que no se mueven y no ayudan al seguimiento de las herramientas. Cada fotograma se empaqueta con la imagen original, una máscara refinada que incluye solo las herramientas activas y un archivo que describe los puntos clave, su visibilidad y cómo se conectan. Los autores convierten esta información a un formato estándar popular, desarrollado originalmente para la pose humana, de modo que muchos algoritmos existentes puedan usar los datos con un esfuerzo mínimo adicional.

Poniendo el conjunto de datos a prueba

Para demostrar que estas anotaciones no son solo atractivas en papel, el equipo entrena varios modelos líderes de estimación de pose —diseñados originalmente para seguir articulaciones humanas— para rastrear en su lugar instrumentos quirúrgicos. En este escenario, cada punto de la herramienta se trata como una articulación humana. Dado que las dos puntas de muchos instrumentos son intercambiables, los autores adaptan el método de evaluación habitual para considerar el intercambio de puntas como inocuo, en lugar de un error. También ajustan cómo se mide el tamaño para que las herramientas largas y finas se juzguen de forma justa, sin importar cómo estén rotadas en la imagen. En miles de imágenes no vistas, los modelos alcanzan una alta precisión, lo que sugiere que un puñado de puntos bien escogidos es suficiente para una localización fiable, incluso en presencia de humo, sangre, reflejos y solapamiento de instrumentos.

Qué supone esto para la cirugía futura

ROBUST-MIPS demuestra que representar los instrumentos quirúrgicos como contornos esqueléticos sencillos puede aportar información rica y práctica a una fracción del coste de etiquetado de las máscaras píxel a píxel. Al publicar el conjunto de datos, el software de etiquetado personalizado y modelos de referencia listos para usar, los autores ofrecen a la comunidad una base sólida para construir sistemas más inteligentes que rastreen las herramientas de forma robusta entre distintos pacientes y procedimientos. A la larga, estas capacidades podrían ayudar a impulsar una navegación más segura, comprobaciones de seguridad en tiempo real y una automatización más intuitiva en el quirófano.

Cita: Han, Z., Budd, C., Zhang, G. et al. ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments. Sci Data 13, 684 (2026). https://doi.org/10.1038/s41597-026-06938-5

Palabras clave: seguimiento de instrumentos quirúrgicos, cirugía laparoscópica, estimación de la pose, conjunto de datos de imágenes médicas, cirugía asistida por ordenador