Clear Sky Science · de

Ein Unterwasser-Bilddatensatz zur occlusionsbewussten Instanzsegmentierung von Fischen

· Zurück zur Übersicht

Warum das Zählen von Fischen unter Wasser schwierig ist

Fischfarmen entwickeln sich zu High-Tech-Betrieben, in denen Kameras und Algorithmen unauffällig tausende Tiere überwachen. Dennoch erweist sich eine überraschend grundlegende Aufgabe — einfach einen Fisch von einem anderen in einem überfüllten Becken zu unterscheiden — als sehr schwierig. Fische schwimmen übereinander und untereinander, verdecken die Kameraperspektive und erscheinen nur als Teile am Bildrand. Dieses Paper stellt eine neue Sammlung von Unterwasserbildern vor, das Fish Occlusion Dataset (FOD), das Computern helfen soll, einzelne Fische zu erkennen, selbst wenn sie teilweise verdeckt sind. Diese Fähigkeit ist zentral, um Fütterung, Gesundheitskontrollen und Bestandsabschätzungen in der modernen Aquakultur zu automatisieren.

Eine neue Bildbibliothek für belebte Fischbecken

Kern dieser Arbeit ist eine große, sorgfältig kuratierte Sammlung von Unterwasserfotos von Karpfen (Carassius), einem häufig gezüchteten Fisch. Die Forschenden filmten 66 Fische in einem Becken mit einer spezialisierten Unterwasserkamera, die über dem Wasser montiert war, und entnahmen Standbilder aus den Videos. Nach dem Entfernen nahezu identischer Bilder blieben über tausend Einzelfischbilder und Hunderte von Szenen mit mehreren Fischen übrig. Jeder sichtbare Fisch wurde von Hand auf Pixelebene umrandet, sodass Computern präzise Formen statt grobe Rechtecke zur Verfügung stehen. Insgesamt enthält FOD 14.376 Bilder und 144.894 sorgfältig beschriebene Fische und ist damit eine der detailliertesten öffentlichen Ressourcen dieser Art.

Figure 1
Figure 1.

Computern beibringen, Überlappungen zu durchschauen

Um wirklich zu prüfen, wie gut Algorithmen mit Überfüllung umgehen, brauchte das Team viele Beispiele, in denen Fische sich überlappen. Das Zeichnen detaillierter Konturen in solchen Szenen ist extrem zeitaufwändig, deshalb wählten sie einen cleveren Umweg. Zunächst erzeugten sie hochqualitative Masken für einzelne Fische. Dann schnitten sie diese digital aus und fügten sie auf Hintergrundbildern in neuen Anordnungen wieder ein. Durch Drehen, Skalieren und Verschieben der Fische und durch Begrenzung, wie stark sie sich gegenseitig verdecken dürfen, schufen sie 13.000 synthetische Bilder mit realistischen, dichten Schwärmen und kontrollierter Überlappung. Sanftes Weichzeichnen an den Kanten lässt diese Kompositbilder natürlich wirken. Der finale Datensatz mischt Original- und synthetische Szenen und bietet so sowohl Vielfalt als auch Realismus.

Bewertung, wie stark jeder Fisch verdeckt ist

Nicht jede Okklusion ist gleich: Ein vollständig sichtbarer Fisch ist deutlich leichter zu erkennen als einer, der nur als wenige verstreute Fragmente erscheint. Um das abzubilden, sortierten die Autoren jeden Fisch in drei einfache Gruppen. „Ganz“ sind vollständig sichtbare Fische, „Teil“ sind teilweise von anderen verdeckte Fische, und „Fragment“ sind Fische, die nur in getrennten Stücken erscheinen. Diese zusätzliche Ebene der Beschriftung ermöglicht es Forschenden, genau zu erkennen, wo ihre Algorithmen Probleme haben. Bei der Analyse zeigte sich, dass die meisten Fische im Datensatz zur Gruppe „Teil“ gehören, was dem tatsächlichen Geschehen in überfüllten Becken entspricht. Die Autoren zeigten außerdem, dass herkömmliche zusammenfassende Kennzahlen Fehler bei winzigen Fragmenten verschleiern können, sodass die Ergebnismeldung nach Okklusionsstufe ein klareres Bild der Stärken und Schwächen von Modellen liefert.

Wie aktuelle Algorithmen abschneiden

Um zu demonstrieren, was FOD leisten kann, testete das Team acht verbreitete Bildsegmentierungsmethoden, darunter sowohl etablierte detektionsbasierte Modelle als auch neuere, „proposal-freie“ Ansätze, die direkter mit Bildregionen arbeiten. Alle erreichten hohe durchschnittliche Genauigkeit auf dem Datensatz, und eine Methode, Mask2Former, hob sich durch besonders scharfe Konturen hervor, vor allem bei überlappenden Fischen. Doch selbst die besten Modelle versagten, wenn Fische in Fragmente zerlegt waren — die Leistung fiel dort deutlich gegenüber vollständig sichtbaren Fischen ab. Ein zusätzliches Experiment zeigte, warum die Mischung aus realen und synthetischen Daten im FOD wichtig ist: Training nur mit realen Szenen führte zu schlechtem Umgang mit Okklusion, während Training nur mit synthetischen Szenen einige Details realer Bilder vermissen ließ. Die Kombination beider Datentypen ergab die robustesten Modelle.

Figure 2
Figure 2.

Was das für intelligentere Fischfarmen bedeutet

Praktisch gesehen bietet dieser neue Datensatz einen Prüfstand für Computer-Vision-Systeme, die in realen Fischfarmen funktionieren müssen, wo freie Sicht eher die Ausnahme als die Regel ist. Indem die Autorinnen und Autoren gezielt überlappende Fische in den Mittelpunkt stellen und sowohl die Bilder als auch den Code zur Erstellung teilen, legen sie die Grundlage für zuverlässigere, occlusionsbewusste Überwachungswerkzeuge. Zwar deckt die aktuelle Sammlung nur eine Art in einem kontrollierten Becken ab, doch lässt sich derselbe Ansatz auf andere Fischarten und herausforderndere Umgebungen ausdehnen. Mit der Verbreitung dieser Techniken könnten Fischzüchter kontinuierlich präzise Informationen über Bestandsgröße, Verhalten und Wachstum erhalten — was ihnen hilft, Futter effizienter einzusetzen, Gesundheitsprobleme frühzeitig zu erkennen und nachhaltiger zu wirtschaften.

Zitation: Wang, X., Yu, H., Zhang, C. et al. An underwater image dataset for occlusion-aware fish instance segmentation. Sci Data 13, 526 (2026). https://doi.org/10.1038/s41597-026-06898-w

Schlüsselwörter: Unterwasserbildgebung, Fischzucht, Computer Vision, Instanzsegmentierung, Okklusion