Clear Sky Science · de

InfoColon: Ein Datensatz für aufeinanderfolgende informative Frames in der Koloskopie

2026-03-26 · Zurück zur Übersicht

Warum klarere Koloskopie-Videos wichtig sind

Die Koloskopie ist eines der wichtigsten Instrumente, mit denen Ärztinnen und Ärzte frühe Anzeichen von Darmkrebs erkennen. Die dabei entstehenden Videos sind jedoch oft unübersichtlich. Viele Frames sind verschwommen, von Blasen oder Instrumenten verdeckt oder zeigen schlicht eine ebene Gewebewand. Solche unergiebigen Momente verlangsamen Fachpersonal und verwirren Computerprogramme, die unterstützen sollen. Diese Studie stellt InfoColon vor, eine neue gemeinsame Sammlung von Koloskopie-Videos, die nützliche Ansichten von nutzlosen trennt und dabei hilft, robustere, verlässlichere medizinische KI-Systeme zu entwickeln.

Aufräumen eines lauten medizinischen Videostroms

Während einer Koloskopie bewegt sich die Kamera durch ein gewundenes, feuchtes und dynamisches Organ. Wenn der Untersucher das Instrument vorschiebt oder zurückzieht, kann das Bild zittern, beschlagen oder durch Lichtreflexe überstrahlt werden. Die Autorinnen und Autoren weisen darauf hin, dass solche uninformativen Frames das Auffinden von Polypen erschweren, die Ermüdung der Kliniker erhöhen und die Dauer der Untersuchung für Patientinnen und Patienten verlängern. Sie argumentieren, dass das schnelle Erkennen informativer Frames — also jener, in denen der innere Tunnel des Kolons und seine Strukturen klar zu sehen sind — Diagnosen verbessern, automatische Qualitätskontrollen ermöglichen und neue Werkzeuge wie 3D-Karten des Kolons oder Navigationshilfen unterstützen würde. Bisher gab es dafür jedoch keinen großen öffentlichen Datensatz zum Trainieren und Vergleichen solcher Methoden.

Figure 1. Wie klare Koloskopie-Frames von Störfaktoren getrennt werden, um bessere Analysen und 3D-Ansichten des Kolons zu ermöglichen.

Eine neue gemeinsame Bibliothek von Kolonansichten

Die Forschenden bauten InfoColon auf, indem sie reale Koloskopie-Videos aus zwei Krankenhäusern mit mehreren bekannten öffentlichen Bildersammlungen kombinierten. Aus klinischen Untersuchungen sammelten sie mehr als 119.000 Frames, die mit einer Frequenz von einer Aufnahme pro Sekunde entnommen wurden, und ergänzten diese um mehrere zehntausend Frames aus bereits existierenden Forschungsdatensätzen. Jeder Frame wurde von Expertinnen und Experten für Endoskopie als informativ oder als einer von sechs uninformativen Typen bezeichnet: ebene Wand, Blase, unscharf, schlechte Beleuchtung, Instrument im Bild oder andere Hindernisse wie Stuhl. Stichprobenkontrollen zeigten eine hohe Übereinstimmung zwischen den Gutachterinnen und Gutachtern, was Vertrauen in die Zuverlässigkeit der Labels schafft. Zusätzlich zu den Videos stellt das Team Zusammenfassungen bereit, die zeigen, wie sich informative Frames über die Zeit in jeder Untersuchung verteilen.

Computern beibringen, sich auf das Wesentliche zu konzentrieren

Das manuelle Annotieren einer so großen Anzahl von Frames wäre teuer und zeitaufwändig, daher prüfte das Team Lernstrategien, die mit einer kleineren Menge annotierter Beispiele möglichst viel erreichen. Sie verglichen klassisches überwachtens Lernen mit semiüberwachten und Active-Learning-Ansätzen, bei denen Expertinnen und Experten nur die informativsten neuen Proben labeln sollen. Ihre neue Methode, genannt Accuracy Driven Adaptive Threshold BALD, wählt Frames für die Expertenprüfung basierend darauf aus, wie stark sich die Modellleistung verändert, statt nur nach Unsicherheit zu entscheiden. Mit einem modernen Vision-Transformer-Modell zeigten sie, dass dieser Ansatz bei der Unterscheidung zwischen informativen und uninformativen Frames in verschiedenen Label-Konfigurationen hohe Genauigkeit erreicht, dabei aber deutlich weniger manuell gelabelte Bilder benötigt als herkömmliches Training.

Von flachen Videoframes zu 3D-Karten

InfoColon macht mehr als nur angeben, welche Frames klar sind. Der Datensatz enthält außerdem Kamerakalibrierungs-Videos und Parameter, die die Weitwinkelverzerrung des Koloskopobjektivs korrigieren. Damit nutzten die Autorinnen und Autoren ausschließlich informative Frames, um 3D-Rekonstruktionsmethoden zu testen, die 2D-Bilder in eine 3D-Punktwolke der Kolonoberfläche überführen. In Beispielclips erfassten die resultierenden 3D-Modelle wichtige Formen wie Falten, Biegungen und Textur und zeigten flüssige Übergänge zwischen den Frames. Das deutet darauf hin, dass ein gut gefilterter Frame-Strom künftige Werkzeuge unterstützen kann, die das Instrument lenken, die Abdeckung schätzen oder helfen, übersehene Bereiche zu identifizieren.

Figure 2. Wie viele unbrauchbare Koloskopie-Frames herausgefiltert werden, um klare Ansichten zu erhalten, die in eine einfache 3D-Kolonform einfließen.

Was das für Patientinnen, Patienten und Forschende bedeutet

Laien lässt sich InfoColon als sorgfältig organisierte Bibliothek beschreiben, die die klaren Bilder bewahrt und die nutzlosen markiert, während sie gleichzeitig das Verhalten der Kamera protokolliert. Diese gemeinsame Ressource sollte es Forschenden weltweit erleichtern, Computerprogramme zu entwickeln und fair zu vergleichen, die Koloskopie-Videos bereinigen, analysieren oder rekonstruieren. Auf lange Sicht könnte solcher Fortschritt Ärztinnen und Ärzte mit besseren Qualitätskontrollen und informativeren Blicken auf das Kolon unterstützen, ohne den Ablauf der Untersuchung für Patientinnen und Patienten zu verändern.

Zitation: Choi, T., Moon, H.S., Jang, S. et al. InfoColon: A dataset for consecutive informative frames in Colonoscopy. Sci Data 13, 748 (2026). https://doi.org/10.1038/s41597-026-07060-2

Schlüsselwörter: Koloskopie, medizinische Bildgebung, Videoanalyse, Datensatz, Active Learning