Clear Sky Science · sv
Förbättrad upptäckt av sällsynta klasser i djuphavsbilder genom generativ augmentation med Stable Diffusion
Varför sällsynt djuphavsliv är svårt att upptäcka
Långt under havsytan bidrar stora djur som lever på botten till att hålla djuphavsekosystemen i balans. Dessa varelser befinner sig också i direkt väg för det växande intresset för djuphavsgruvdrift. Forskare vill ha automatiska kamerasystem som pålitligt kan hitta och räkna dem, men det finns ett problem: många arter ses bara ett fåtal gånger. I denna studie undersöks hur modern bildgenererande artificiell intelligens kan skapa realistiska extraexempel av sällsynta arter, vilket hjälper detektionsprogramvara att bli mer exakt utan att skicka fler fartyg till havs.
Att fotografera i en svåråtkomlig värld
Teamet arbetade med två stora samlingar av bottenfotografier tagna i ett polymetalliskt nodulfält i västra Stilla havet. En uppsättning kom från ett fastsatt kamerasystem draget några meter ovanför botten, och den andra från en frisimmande robot. Tillsammans täckte bilderna 16 djurtyper, inklusive sjögurkor, svampar, koraller, sjöstjärnor, ormstjärnor och bläckfiskar. Som i många vildmarksdataset var fördelningen mycket ojämn: några vanliga djur förekom ofta, medan flera grupper hade färre än 50 märkta exempel. Eftersom de flesta djur upptar mindre än en tiondels procent av varje bild, och kamerorna är kostsamma att använda på djup bortom 4 000 meter, är det inte praktiskt att helt enkelt samla mer balanserad data.

Att lära en bildgenerator om sällsynt bottenliv
För att tackla denna obalans vände sig forskarna till en populär bildgenereringsmetod känd som en diffusionsmodell. De utgick från en kraftfull allmän modell tränad på vardagsscener och anpassade den försiktigt till djuphavsbilder med en lättvikts finjusteringsmetod. Först beskärde de ut 175 tydliga exempel av sju sällsynta djurgrupper, såsom bryozoer, vissa koraller och bläckfiskar, och använde dessa för att träna modellen att rita trovärdiga nya förgrundsutskärningar av varje typ. Enkla textpromptar varierades för att uppmuntra förändringar i pose, färg, ljus och synvinkel, så att modellen inte bara kopierade de få ursprungliga bilderna utan istället utforskade realistiska nya kombinationer.
Att blanda syntetiska djur i realistiska bottenmiljöer
Eftersom objektdetektorer behöver både djur och deras omgivningar fokuserade ett andra steg på bakgrunder och layout. Här använde teamet ett följsamt styrsystem som vägleder diffusionsmodellen med enkla maskbilder. Dessa maskar specificerade var och hur stora varje syntetiskt djur skulle vara, baserat på storleksintervall observerade i verkliga data. Modellen genererade sedan bottenbakgrunder med matchande sediment-, sten- och nodulmönster och smälte förgrundsdjuren sömlöst på plats samtidigt som ljus och färg hölls konsekventa. Viktigt var att varje mask också gav en automatisk begränsningsruta, vilket gav färdiga etiketter. Efter filtrering av felaktiga resultat innehöll den slutliga syntetiska uppsättningen 200 högkvalitativa exempel för varje sällsynt klass, vilka blandades med de ursprungliga träningsbilderna.

Hur mycket hjälpte de extra bilderna?
Det förbättrade datasetet användes för att träna ett modernt detektionsnätverk som hittar och etiketterar djur i varje bildruta. I både det dragna och den frisimmande kamerasamlingen ökade huvudpoängen för noggrannhet när syntetiska bilder lades till jämfört med träning endast på verkliga foton. Vinsterna var mest påtagliga för de sällsyntaste grupperna: till exempel förbättrades prestandan för bläckfiskar och bryozoer med mer än 20 procentenheter i ett dataset, och liknande förbättringar sågs för bryozoer och hydrozoer i det andra. Metoden stod sig också bättre än standardmetoder som slumpmässiga beskärningar, färgskiftningar och cut-and-paste-kompositer. Detaljerad felanalys visade att den största förbättringen kom från färre misstag vid artbestämning, snarare än från mer exakt ruta-placering.
Begränsningar, avvägningar och framtida riktningar
Fördelarna var inte enhetliga. Syntetisk data hjälpte mindre på de suddigare, mer avlägsna bilderna från den frisimmande roboten, där även verkliga djur är svårare att se. När modeller tränade på ett kamerasystem testades på det andra sjönk prestandan kraftigt, vilket visar att skillnader i belysning och synavstånd fortfarande utgör en stor utmaning. Författarna fann också att mer syntetisk data inte alltid är bättre: prestandan förbättrades upp till en viss punkt för att sedan plana ut, vilket tyder på att när mångfalden är mättad ger ytterligare bilder främst redundans. De föreslår framtida arbete med skarpare lokalisering, bättre hantering av mycket små, suddiga mål och mer effektiva generativa modeller som täcker många arter samtidigt.
Vad detta betyder för övervakning av djuphavet
Enkelt uttryckt visar studien att noggrant genererade falska bilder kan göra automatiska system märkbart bättre på att hitta sällsynta djuphavsdjur i verkliga undersökningsfoton. Genom att lära detektorer vad ovanliga arter kan se ut som under många realistiska förhållanden minskar denna metod missade observationer utan att skada prestandan för vanliga djur. Även om det inte eliminerar behovet av verkliga expeditioner eller expertgranskningar erbjuder det ett praktiskt sätt att sträcka begränsade data längre och stödja mer tillförlitlig övervakning av känsliga djuphavsmiljöer i takt med att industriell aktivitet rör sig mot större djup.
Citering: Deng, J., Duan, M., Wei, D. et al. Improving rare-class detection in deep-sea imagery via generative augmentation with stable diffusion. Sci Rep 16, 15910 (2026). https://doi.org/10.1038/s41598-026-45732-6
Nyckelord: djuphavsbilder, dataaugmentation, stable diffusion, upptäckt av sällsynta arter, undervattensrobotik