Clear Sky Science · pl
ROBUST-MIPS: Zestaw danych łączący szkieletową reprezentację pozycji i segmentację obiektów narzędzi laparoskopowych
Bystrzejsze spojrzenie na narzędzia chirurgiczne
Chirurgia klucznikowa opiera się na długich, cienkich instrumentach prowadzonych przez kamery umieszczone w ciele. Aby komputery mogły wspierać chirurgów — śledząc narzędzia, ostrzegając przed strefami niebezpiecznymi czy nawet sterując kamerami — najpierw muszą dokładnie wiedzieć, gdzie znajduje się każdy instrument i jak jest ustawiony. W artykule przedstawiono ROBUST-MIPS, dużą, starannie oznakowaną kolekcję obrazów, która uczy algorytmy efektywnie i precyzyjnie śledzić narzędzia chirurgiczne, torując drogę do bezpieczniejszych i bardziej zautomatyzowanych operacji.

Dlaczego śledzenie narzędzi wewnątrz ciała jest trudne
Podczas zabiegów minimalnie inwazyjnych kamera pokazuje okrągłe okno na zatłoczoną, zmieniającą się scenę: tkanki, krew, dym, odblaski i kilka zachodzących na siebie narzędzi. Wiele zespołów badawczych próbowało nauczyć komputery rozumieć takie obrazy poprzez oznaczanie każdego piksela należącego do narzędzia — proces zwany segmentacją. Choć bardzo szczegółowe, pikselowe obrysy są czasochłonne i męczące do rysowania dla ludzi i nie zawsze oddają najważniejsze informacje o tym, gdzie narzędzie się zaczyna, gdzie się wygina i gdzie się kończy. Proste prostokąty, powszechne w codziennej wizji komputerowej, słabo się tu sprawdzają, ponieważ instrumenty są długie i cienkie — ramka obejmuje więc dużo nieistotnego obszaru i nakłada się na inne narzędzia.
Szkieletowa reprezentacja narzędzi chirurgicznych
Autorzy proponują inne spojrzenie: zamiast wypełniać każdy piksel, opisać każde narzędzie jako prostą „lalkę patyczkową” z kilkoma kluczowymi punktami połączonymi liniami prostymi. W zestawie ROBUST-MIPS każde narzędzie na każdym obrazie ma oznaczone cztery standardowe pozycje: punkt wejścia w pole widzenia kamery (punkt wejścia), miejsce, gdzie trzon łączy się z ruchomą lub sztywną końcówką (zawias), oraz do dwóch możliwych pozycji końcówek. Ten schemat działa zarówno dla narzędzi sztywnych, jak sondy, jak i dla narzędzi z przegubami, jak chwytaki czy nożyczki. Dla narzędzi mających tylko jedną końcówkę lub takich, których końcówki nachodzą na siebie bądź znikają z pola widzenia, dodatkowy punkt jest oznaczony jako brakujący, ale zachowany w tym samym formacie, tak aby algorytmy zawsze widziały spójną strukturę.
Radzenie sobie z ukrytymi i niejednoznacznymi częściami
Rzeczywiste operacje są chaotyczne, a części instrumentu często są ukryte za tkanką, poza okrągłym polem widzenia kamery lub całkowicie poza kadrem. Aby to uwzględnić, zespół dodaje etykietę widoczności do każdego punktu kluczowego: wyraźnie widoczny, ukryty, ale możliwy do pewnego oszacowania, albo całkowicie nieznany. Na przykład jeśli widoczny jest tylko trzon, pozycje końcówek oznacza się jako brakujące; jeśli końcówka znajduje się za tkanką, lecz jej pozycję można wywnioskować z widocznego trzonu i kształtu narzędzia, oznacza się ją jako zasłoniętą z oszacowanymi współrzędnymi. Autorzy pozwalają także anotatorom umieszczać punkty tuż poza granicą obrazu, gdy instrument wyraźnie kontynuuje poza kadrem, co zapewnia, że „lalkowa” reprezentacja pozostaje połączona nawet gdy widoczna jest tylko jej część.

Budowanie i udostępnianie bogatego pola treningowego
ROBUST-MIPS powstał na bazie wcześniejszego, szeroko stosowanego zbioru danych o nazwie ROBUST-MIS, który zawiera 10 040 klatek z 30 zabiegów kolorektalnych. Każda klatka miała już szczegółowe maski narzędzi; nowa praca dodaje etykiety szkieletowe i porządkuje maski przez usunięcie statycznych portów kamer, które się nie poruszają i nie pomagają w śledzeniu narzędzi. Każda klatka jest dostarczana z oryginalnym obrazem, dopracowaną maską zawierającą tylko aktywne narzędzia oraz plikiem opisującym punkty kluczowe, ich widoczność i sposób połączenia. Autorzy konwertują te informacje do popularnego standardowego formatu, opracowanego pierwotnie dla pozy człowieka, tak aby wiele istniejących algorytmów mogło użyć danych przy minimalnym nakładzie pracy.
Testowanie zestawu danych
Aby pokazać, że te annotacje działają nie tylko na papierze, zespół trenuje kilka czołowych modeli estymacji pozy — zaprojektowanych pierwotnie do śledzenia stawów ludzkich — do śledzenia narzędzi chirurgicznych. W tym ustawieniu każdy punkt narzędzia traktowany jest jak staw ludzki. Ponieważ dwie końcówki wielu instrumentów są wymienne, autorzy dostosowują standardową metodę oceny tak, że zamiana końcówek jest uznawana za nieszkodliwą, a nie za błąd. Dostosowują też sposób pomiaru rozmiaru, aby długie, cienkie narzędzia były oceniane uczciwie, niezależnie od ich obrotu na obrazie. Na tysiącach nieznanych wcześniej obrazów modele osiągają wysoką dokładność, co sugeruje, że kilka starannie dobranych punktów wystarcza do niezawodnej lokalizacji, nawet przy dymie, krwi, odblaskach i zachodzących na siebie narzędziach.
Co to oznacza dla przyszłości chirurgii
ROBUST-MIPS pokazuje, że reprezentowanie narzędzi chirurgicznych jako prostych szkieletowych obrysów może dostarczyć bogatych, praktycznych informacji przy ułamku kosztu oznaczania piksel-po-piksel. Udostępniając zestaw danych, dedykowane oprogramowanie do etykietowania oraz gotowe modele referencyjne, autorzy dają społeczności solidne podstawy do budowy inteligentniejszych systemów, które będą skutecznie śledzić narzędzia w różnych pacjentach i procedurach. W dłuższej perspektywie takie możliwości mogą wspierać bezpieczniejszą nawigację, kontrole bezpieczeństwa w czasie rzeczywistym oraz bardziej intuicyjną automatyzację na sali operacyjnej.
Cytowanie: Han, Z., Budd, C., Zhang, G. et al. ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments. Sci Data 13, 684 (2026). https://doi.org/10.1038/s41597-026-06938-5
Słowa kluczowe: śledzenie narzędzi chirurgicznych, chirurgia laparoskopowa, estymacja pozy, zbiór danych obrazów medycznych, chirurgia wspomagana komputerowo