Clear Sky Science · de
ROBUST-MIPS: Ein kombiniertes Datenset für Skelett-Pose und Instanzsegmentierung laparoskopischer Operationsinstrumente
Klügere Augen für chirurgische Werkzeuge
Schlüssellochchirurgie beruht auf langen, schlanken Instrumenten, die von Kameras im Körperinneren geführt werden. Damit Computer Chirurgen unterstützen können – indem sie Werkzeuge verfolgen, vor Gefahrenzonen warnen oder sogar Kameras steuern – müssen sie zuerst genau wissen, wo sich jedes Instrument befindet und wie es ausgerichtet ist. Dieser Artikel stellt ROBUST-MIPS vor, eine große, sorgfältig annotierte Bildsammlung, die Algorithmen beibringt, chirurgische Instrumente effizienter und genauer zu verfolgen und so den Weg für sicherere und stärker automatisierte Eingriffe ebnet.

Warum das Verfolgen von Instrumenten im Körper schwierig ist
Während minimalinvasiver Eingriffe zeigt die Kamera ein kreisförmiges Fenster in eine überfüllte, sich verändernde Szene: Gewebe, Blut, Rauch, Blendlicht und mehrere überlappende Instrumente. Viele Forschungsgruppen haben versucht, diese Szenen für Computer verständlich zu machen, indem sie jedes Pixel, das zu einem Instrument gehört, markierten – ein Vorgang, der als Segmentierung bezeichnet wird. Obwohl sehr detailliert, sind solche pixelgenauen Umrisse langsam und ermüdend für Menschen zu zeichnen und erfassen nicht immer die praktischste Information darüber, wo ein Instrument beginnt, sich biegt und endet. Einfache Rechtecke, wie sie in der allgemeinen Computer-Vision üblich sind, schneiden hier schlecht ab, weil Instrumente lang und dünn sind: Eine Box um sie herum umfasst viel irrelevante Fläche und überschneidet sich mit anderen Werkzeugen.
Eine Strichmännchen‑Ansicht chirurgischer Instrumente
Die Autoren plädieren für einen anderen Blickwinkel: Statt jedes Pixel auszumalen, beschreiben sie jedes Instrument als einfaches „Strichmännchen“, bestehend aus wenigen Schlüsselpunkten, die durch gerade Linien verbunden sind. In ihrem ROBUST-MIPS‑Datenset ist jedes Werkzeug in jedem Bild mit vier standardisierten Positionen versehen: wo es in das Kamerafeld eintritt (der Eintrittspunkt), wo der Schaft auf die bewegliche oder starre Spitze trifft (das Gelenk) und bis zu zwei mögliche Spitzenpositionen. Dieses Design funktioniert sowohl für starre Instrumente wie Sonden als auch für gegliederte wie Greifer und Scheren. Für Instrumente mit nur einer Spitze oder solche, deren Spitzen sich überlappen oder aus dem Sichtfeld verschwinden, wird der zusätzliche Punkt als fehlend markiert, aber im selben Format belassen, sodass Algorithmen stets eine konsistente Struktur vorfinden.
Umgang mit verdeckten und mehrdeutigen Teilen
Reale Operationen sind chaotisch, und Teile eines Instruments sind oft hinter Gewebe verborgen, außerhalb des kreisförmigen Kamerafensters oder ganz außerhalb des Bildes. Um damit umzugehen, fügt das Team jedem Schlüsselpunkt ein Sichtbarkeitslabel hinzu: klar sichtbar, verborgen aber sicher schätzbar oder vollständig unbekannt. Wenn beispielsweise nur der Schaft sichtbar ist, werden die Spitzenpositionen als fehlend markiert; wenn eine Spitze hinter Gewebe liegt, ihre Position aber aus dem sichtbaren Schaft und der Form des Instruments erschlossen werden kann, wird sie als verdeckt mit geschätzten Koordinaten markiert. Die Autoren erlauben den Annotatoren sogar, Punkte knapp außerhalb des Bildrandes zu platzieren, wenn das Instrument offensichtlich aus dem Bild heraus weitergeht, sodass das „Strichmännchen“ verbunden bleibt, selbst wenn nur ein Teil sichtbar ist.

Aufbau und Bereitstellung eines reichen Trainingsfeldes
ROBUST-MIPS baut auf einem früher weit verbreiteten Datensatz namens ROBUST-MIS auf, der 10.040 Frames aus 30 kolorektalen Eingriffen enthält. Jeder Frame verfügte bereits über detaillierte Werkzeugmasken; die neue Arbeit ergänzt diese um die Skelett‑Labels und bereinigt die Masken, indem statische Kameraport‑Masken entfernt werden, die sich nicht bewegen und dem Werkzeugtracking nicht nützen. Jeder Frame wird mit dem Originalbild, einer verfeinerten Maske, die nur die aktiven Instrumente enthält, und einer Datei geliefert, die die Schlüsselpunkte, deren Sichtbarkeit und ihre Verbindungen beschreibt. Die Autoren konvertieren diese Informationen in ein verbreitetes Standardformat, das ursprünglich für die menschliche Pose entwickelt wurde, sodass viele vorhandene Algorithmen die Daten mit minimalem Zusatzaufwand nutzen können.
Das Datenset auf dem Prüfstand
Um zu zeigen, dass diese Annotationen nicht nur auf dem Papier interessant sind, trainiert das Team mehrere führende Pose‑Schätzmodelle – ursprünglich zur Verfolgung menschlicher Gelenke entwickelt – darauf, chirurgische Instrumente zu verfolgen. In diesem Szenario wird jeder Werkzeugpunkt wie ein menschliches Gelenk behandelt. Da die beiden Spitzen vieler Instrumente vertauschbar sind, passen die Autoren die übliche Bewertungsmethode an, sodass ein Vertauschen der Spitzen nicht als Fehler gewertet wird. Sie passen außerdem die Größenmessung so an, dass lange, dünne Instrumente fair beurteilt werden, unabhängig von ihrer Rotation im Bild. Über Tausende unbekannter Bilder erzielen die Modelle hohe Genauigkeit, was darauf hindeutet, dass eine Handvoll wohlgewählter Punkte für eine zuverlässige Lokalisierung ausreicht – selbst bei Rauch, Blut, Blendung und überlappenden Instrumenten.
Was das für die Chirurgie der Zukunft bedeutet
ROBUST-MIPS zeigt, dass die Darstellung chirurgischer Instrumente als einfache Skelettumrisse reichhaltige, praxisnahe Informationen liefern kann – zu einem Bruchteil der Kennzeichnungskosten von pixelgenauen Masken. Durch die Veröffentlichung des Datensets, der angepassten Beschriftungssoftware und einsatzbereiter Benchmark‑Modelle geben die Autoren der Community eine solide Grundlage, um robustere Systeme zu entwickeln, die Instrumente über verschiedene Patienten und Eingriffe hinweg verfolgen. Auf lange Sicht könnten solche Fähigkeiten sicherere Navigation, Echtzeit‑Sicherheitschecks und intuitiverere Automatisierung im Operationssaal ermöglichen.
Zitation: Han, Z., Budd, C., Zhang, G. et al. ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments. Sci Data 13, 684 (2026). https://doi.org/10.1038/s41597-026-06938-5
Schlüsselwörter: Verfolgung chirurgischer Instrumente, laparoskopische Chirurgie, Pose-Schätzung, medizinisches Bilddatenset, computerassistierte Chirurgie