Clear Sky Science · it

ROBUST-MIPS: un dataset combinato di posa scheletrica e segmentazione per istanze di strumenti chirurgici laparoscopici

· Torna all'indice

Sguardi più intelligenti sugli strumenti chirurgici

La chirurgia a foro chiave si affida a strumenti lunghi e sottili guidati da telecamere all’interno del corpo. Per consentire ai computer di assistere i chirurghi — tracciando gli strumenti, avvisando delle zone pericolose o addirittura muovendo le telecamere — è prima necessario sapere con precisione dove si trova ogni strumento e come è orientato. In questo articolo viene presentato ROBUST-MIPS, un ampio e accuratamente etichettato insieme di immagini che insegna agli algoritmi a seguire gli strumenti chirurgici in modo più efficiente e preciso, aprendo la strada a operazioni più sicure e più automatizzate.

Figure 1
Figura 1.

Perché seguire gli strumenti dentro il corpo è difficile

Durante la chirurgia minimamente invasiva, la telecamera mostra una finestra circolare su una scena affollata e in movimento: tessuto, sangue, fumo, riflessi e diversi strumenti sovrapposti. Molti gruppi di ricerca hanno provato a far comprendere queste scene ai computer marcando ogni pixel che appartiene a uno strumento, un processo chiamato segmentazione. Pur essendo molto dettagliati, tali contorni pixel-per-pixel richiedono tempo e affaticano chi li disegna, e non sempre catturano le informazioni più utili per sapere dove uno strumento inizia, si piega e finisce. I semplici rettangoli, comuni nella visione artificiale di uso quotidiano, funzionano male qui perché gli strumenti sono lunghi e sottili: una scatola che li racchiude include molte aree irrilevanti e si sovrappone ad altri strumenti.

Una vista a “bambola di pezza” degli strumenti chirurgici

Gli autori propongono un punto di vista diverso: invece di colorare ogni pixel, descrivere ogni strumento come una semplice “bambola di pezza” composta da pochi punti chiave collegati da segmenti. Nel loro dataset ROBUST-MIPS, ogni strumento in ogni immagine è etichettato con quattro posizioni standard: dove entra nel campo visivo della telecamera (punto d’ingresso), dove il fusto incontra la parte mobile o rigida della punta (cerniera) e fino a due possibili posizioni della punta. Questo schema funziona sia per strumenti rigidi, come sonde, sia per strumenti articolati, come pinze e forbici. Per strumenti che hanno una sola punta, o per punte che si sovrappongono o scompaiono dalla vista, il punto aggiuntivo è segnato come mancante ma mantenuto nello stesso formato, in modo che gli algoritmi trovino sempre una struttura coerente.

Gestire parti nascoste e ambigue

Le operazioni reali sono disordinate e parti di uno strumento sono spesso nascoste dietro il tessuto, al di fuori della vista circolare della telecamera o completamente fuori campo. Per affrontare questo, il team aggiunge un'etichetta di visibilità a ogni punto chiave: chiaramente visibile, nascosto ma stimabile con confidenza, o del tutto sconosciuto. Per esempio, se è visibile solo il fusto, le posizioni delle punte sono segnate come mancanti; se una punta è dietro il tessuto ma la sua posizione può essere inferita dal fusto visibile e dalla forma dello strumento, è contrassegnata come occlusa con coordinate stimate. Gli autori permettono anche agli annotatori di piazzare punti poco oltre il bordo dell’immagine quando lo strumento prosegue chiaramente fuori dal fotogramma, assicurando che la “bambola di pezza” resti connessa anche quando è visibile solo una parte.

Figure 2
Figura 2.

Costruire e condividere un ricco terreno di addestramento

ROBUST-MIPS è costruito a partire da un precedente dataset ampiamente usato chiamato ROBUST-MIS, che contiene 10.040 fotogrammi provenienti da 30 interventi colorettali. Ogni fotogramma aveva già maschere dettagliate degli strumenti; il nuovo lavoro aggiunge le etichette scheletriche e pulisce le maschere rimuovendo i porti della telecamera statici che non si muovono e non aiutano nel tracciamento degli strumenti. Ogni fotogramma viene fornito con l’immagine originale, una maschera raffinata che include solo gli strumenti attivi e un file che descrive i punti chiave, la loro visibilità e come sono connessi. Gli autori convertono queste informazioni in un formato standard popolare, originariamente sviluppato per la posa umana, così che molti algoritmi esistenti possano usare i dati con il minimo lavoro aggiuntivo.

Mettere alla prova il dataset

Per dimostrare che queste annotazioni non sono solo interessanti sulla carta, il team allena diversi modelli di stima della posa di punta — originariamente pensati per tracciare le articolazioni umane — a seguire invece gli strumenti chirurgici. In questo contesto, ogni punto dello strumento è trattato come una giuntura umana. Poiché le due punte di molti strumenti sono intercambiabili, gli autori personalizzano il metodo di valutazione usuale per considerare lo scambio delle punte come innocuo, invece che come un errore. Adattano anche il modo in cui viene misurata la dimensione in modo che strumenti lunghi e sottili siano valutati correttamente, indipendentemente dalla loro rotazione nell’immagine. Su migliaia di immagini non viste, i modelli raggiungono buona accuratezza, suggerendo che una manciata di punti ben scelti è sufficiente per una localizzazione affidabile, anche in presenza di fumo, sangue, riflessi e strumenti sovrapposti.

Cosa significa questo per la chirurgia futura

ROBUST-MIPS dimostra che rappresentare gli strumenti chirurgici come semplici sagome scheletriche può fornire informazioni ricche e pratiche a una frazione del costo di etichettatura delle maschere pixel-wise. Rilasciando il dataset, il software di annotazione personalizzato e modelli di benchmark pronti all’uso, gli autori offrono alla comunità una base solida per costruire sistemi più intelligenti che traccino gli strumenti in modo robusto attraverso diversi pazienti e procedure. A lungo termine, tali capacità potrebbero contribuire a una navigazione più sicura, controlli di sicurezza in tempo reale e automazione più intuitiva in sala operatoria.

Citazione: Han, Z., Budd, C., Zhang, G. et al. ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments. Sci Data 13, 684 (2026). https://doi.org/10.1038/s41597-026-06938-5

Parole chiave: tracciamento degli strumenti chirurgici, chirurgia laparoscopica, stima della posa, dataset di immagini mediche, chirurgia assistita dal computer