Clear Sky Science · de
Verbesserung der Erkennung seltener Klassen in Tiefseeaufnahmen durch generative Augmentation mit Stable Diffusion
Warum seltenes Tiefseeleben schwer zu entdecken ist
Tief unter der Meeresoberfläche tragen größere Tiere am Meeresboden zum Funktionieren der Tiefseeökosysteme bei. Diese Lebewesen stehen zudem direkt im Fokus des zunehmenden Interesses am Tiefseebergbau. Wissenschaftler möchten automatisierte Kamerasysteme, die sie zuverlässig finden und zählen können, doch es gibt ein Problem: viele Arten werden nur sehr selten beobachtet. Die Studie untersucht, wie moderne bildgenerierende Künstliche Intelligenz realistische zusätzliche Beispiele seltener Arten erzeugen kann, sodass Erkennungssoftware ohne teure zusätzliche Expeditionen genauer wird.
Fotografieren in einer schwer zugänglichen Welt
Das Team arbeitete mit zwei großen Sammlungen von Meeresbodenfotos aus einem Polymetallknollenfeld im westlichen Pazifik. Der eine Datensatz stammte von einem an einem Kabel gezogenen Kamerasystem, das einige Meter über dem Meeresboden geführt wurde, der andere von einem frei schwimmenden Roboter. Zusammen deckten die Bilder 16 Tiergruppen ab, darunter Seegurken, Schwämme, Korallen, Seesterne, Schlangensterne und Oktopusse. Wie bei vielen Beobachtungsdatensätzen waren die Häufigkeiten sehr unausgewogen: einige häufige Arten traten oft auf, während mehrere Gruppen weniger als 50 gelabelte Beispiele hatten. Da die meisten Tiere weniger als ein Zehntelprozent eines Bildes einnehmen und Kameras in Tiefen jenseits von 4.000 Metern teuer zu betreiben sind, ist das einfache Sammeln ausgewogenerer Daten praktisch nicht machbar.

Ein Bildgenerator lernt seltenes Meeresbodenleben
Um dieses Ungleichgewicht anzugehen, griffen die Forschenden zu einer verbreiteten Bildgenerierungsmethode, bekannt als Diffusionsmodell. Sie starteten mit einer leistungsfähigen, allgemein trainierten Version für Alltagszenen und passten diese mittels einer leichten Feinabstimmung an Tiefseeaufnahmen an. Zuerst schnitten sie 175 klar erkennbare Beispiele von sieben seltenen Tiergruppen heraus, etwa Bryozoen, bestimmte Korallen und Oktopusse, und nutzten diese, um das Modell darauf zu trainieren, überzeugende neue Vordergrundausschnitte jeder Gruppe zu erzeugen. Einfache Textprompts wurden variiert, um Pose, Farbe, Beleuchtung und Blickwinkel zu verändern, damit das Modell nicht einfach die wenigen Originalfotos kopiert, sondern realistische neue Kombinationen erkundet.
Synthetische Tiere in realistische Meeresbodenlandschaften einfügen
Da Objektdetektoren sowohl Tiere als auch deren Umgebung benötigen, richtete sich eine zweite Phase auf Hintergründe und Anordnung. Hier nutzte das Team ein begleitendes Kontrollsystem, das das Diffusionsmodell mit einfachen Maskenbildern führt. Diese Masken legten fest, wo und wie groß jedes synthetische Tier erscheinen sollte, basierend auf den Größenbereichen aus den echten Daten. Das Modell erzeugte dann Meeresboden-Hintergründe mit passenden Sediment-, Fels- und Knollenmustern und fügte die Vordergrundtiere nahtlos ein, wobei Beleuchtung und Farbe konsistent blieben. Entscheidenderweise lieferte jede Maske auch automatisch eine Bounding Box und damit fertige Labels. Nach dem Aussortieren fehlerhafter Ergebnisse enthielt der finale synthetische Satz 200 hochwertige Beispiele pro seltener Klasse, die mit den Originalfotos vermischt wurden.

Wie stark halfen die zusätzlichen Bilder?
Der verbesserte Datensatz wurde verwendet, um ein modernes Erkennungsnetz zu trainieren, das Tiere in jedem Frame lokalisiert und labelt. Sowohl in den Aufnahmen des gezogenen als auch des frei schwimmenden Kamerasystems führten synthetische Bilder zu höheren Kern-Genauigkeitswerten im Vergleich zum Training nur mit echten Fotos. Die Zuwächse waren am größten bei den seltensten Gruppen: etwa verbesserten sich die Leistungen für Oktopusse und Bryozoen in einem Datensatz um mehr als 20 Prozentpunkte, und ähnliche Steigerungen zeigten sich für Bryozoen und Hydrozoen im anderen Datensatz. Die Methode schnitt auch besser ab als gängige Tricks wie zufällige Zuschnitte, Farbverschiebungen oder Cut-and-Paste-Komposite. Eine detaillierte Fehleranalyse zeigte, dass die größte Verbesserung darauf zurückzuführen war, dass weniger Artenverwechslungen auftraten, nicht primär an einer präziseren Platzierung der Bounding Boxes.
Grenzen, Kompromisse und künftige Richtungen
Die Vorteile waren nicht einheitlich. Synthetische Daten halfen weniger bei den verschwommeneren, weiter entfernten Bildern des frei schwimmenden Roboters, wo selbst echte Tiere schwerer zu sehen sind. Wenn auf einem Kamerasystem trainierte Modelle am anderen getestet wurden, brach die Leistung stark ein, was zeigt, dass Unterschiede in Beleuchtung und Beobachtungsdistanz weiterhin eine große Herausforderung darstellen. Die Autorinnen und Autoren stellten außerdem fest, dass mehr synthetische Daten nicht immer besser sind: Die Leistung verbesserte sich bis zu einem Punkt und flachte dann ab, was darauf hindeutet, dass bei gesättigter Vielfalt zusätzliche Bilder vorwiegend Redundanz bringen. Sie schlagen künftige Arbeiten zu schärferer Lokalisierung, besserer Handhabung sehr kleiner, unscharfer Ziele und effizienteren generativen Modellen vor, die viele Arten gleichzeitig abdecken.
Was das für die Beobachtung der Tiefsee bedeutet
Einfach gesagt zeigt die Studie, dass sorgfältig erzeugte künstliche Bilder automatisierte Systeme spürbar besser darin machen können, seltene Tiefseetiere in realen Survey-Fotos zu finden. Indem Detektoren beigebracht wird, wie ungewöhnliche Arten unter vielen realistischen Bedingungen aussehen können, reduziert dieser Ansatz verpasste Sichtungen, ohne die Leistung bei häufigen Arten zu verschlechtern. Zwar ersetzt er nicht die Notwendigkeit realer Expeditionen oder fachlicher Begutachtung, bietet aber einen praktischen Weg, begrenzte Daten besser zu nutzen und so eine zuverlässigere Überwachung empfindlicher Tiefseehabitate zu unterstützen, während industrielle Aktivitäten in größere Tiefen vordringen.
Zitation: Deng, J., Duan, M., Wei, D. et al. Improving rare-class detection in deep-sea imagery via generative augmentation with stable diffusion. Sci Rep 16, 15910 (2026). https://doi.org/10.1038/s41598-026-45732-6
Schlüsselwörter: Tiefseeaufnahmen, Datenaugmentation, Stable Diffusion, Erkennung seltener Arten, Unterwasserrobotik