Clear Sky Science · sv
Objektdetektion under vatten i realtid via frekvensdynamik och rumsligt förbättrad funktionsmodulering
Se klart under vågorna
Världen under havsytan är viktig för livsmedelsförsörjning, energi och miljöhälsa, men är också svår att se i. Grumligt vatten, drivande partiklar och svagt ljus kan göra även enkla uppgifter som att räkna sjöstjärnor eller kontrollera rör på havsbotten förvånansvärt svåra. Denna studie presenterar en ny datorvisionsmetod som hjälper undervattensrobotar och kameror att upptäcka små havslevande djur mer exakt och snabbare, även när sikten är suddig eller disig.

Varför undervattensseende är så svårt
Till skillnad från luft böjer och sprider vatten ljus, särskilt rött och gult som våra ögon använder för kontrast. Bilder tagna under vatten ser ofta blågröna, dimmiga och detaljfattiga ut, med stark bakåtspridning från flytande partiklar. Små djur som pilgrimsmusslor eller sjöborrar kan bara upptas av några få pixlar i en bild och smälter lätt samman med stenar, sand eller tång. Traditionell objektdetekteringsmjukvara, ursprungligen utformad för skarpa bilder på land, missar ofta dessa svaga mål eller misstar bakgrundsbrus för verkliga djur. Samtidigt har undervattensrobotar och sensorer vanligtvis begränsad hårdvara, så metoden måste vara snabb och resurseffektiv, inte bara exakt.
Ett snabbare sätt att läsa brusiga bilder
Författarna bygger vidare på en nyare familj av modeller känd som Detection Transformers, som skannar en bild genom att lära sig relationer mellan alla dess delar istället för att flytta ett litet fönster över den. Deras variant behåller realtidshastigheten hos ett tidigare system kallat RT-DETR men byter in en ny backbone, FasterFDBlock, bättre anpassad till brusiga undervattensscener. Denna backbone kombinerar ett trick kallat partiell konvolution, som endast bearbetar en del av bildkanalerna för att spara tid, med en frekvensbaserad syn på bilden. Genom att arbeta i frekvensdomänen kan modellen skilja slumpmässigt prickigt brus från skarpa kanter som markerar djur, dämpa det förstnämnda samtidigt som den bevarar det senare och minskar onödig beräkning.
Hålla små djur i fokus
Djupa visionsnätverk förlorar ofta fin detalj när de upprepade gånger minskar en bild för att extrahera högre nivåmönster. Det kan vara avgörande för att upptäcka pyttesmå pilgrimsmusslor eller sjöstjärnor som redan ligger vid synbarhetsgränsen. För att motverka detta omdesignar forskarna kärnuppmärksamhetsblocket i kodaren och skapar vad de kallar AIFI-SEFN. Enkelt uttryckt ser en gren av denna modul helheten med hjälp av attention, medan en medföljande gren fokuserar på lokal textur och form. Den poolar och förstorar funktioner över skalor, använder lättviktskonvolutioner för att fånga kanter och mönster och styr sedan hur mycket av denna detalj som släpps igenom. Resultatet är en rikare blandning av global kontext och skarp lokal struktur, så att små djur framträder tydligare mot grov botten och vegetation.

Blända information över skalor
Undervattensbilder innehåller sällan objekt i en enda storlek; samma organism kan framstå som en liten prick på avstånd eller som en stor yta i förgrunden. Enkla sätt att föra samman information från ytliga och djupa lager, som att bara lägga ihop funktionskartor, kan begrava små detaljer under tunga högre nivåsignaler eller låta ytligt brus överväldiga scenen. Den nya modul som kallas Multi-scale Feature Modulation tar itu med detta genom att först sammanfatta vad varje lager "ser" via global pooling, och sedan tilldela adaptiva vikter till semantiska och detaljerade funktioner för varje kanal. Dessa vikter summerar alltid till ett, så modellen måste avgöra, kanal för kanal, om detalj eller bred kontext är viktigare. Denna selektiva blandning stärker signalerna från verkliga mål och dämpar distraktioner från stenar, sand och skuggor, utan att lägga till mycket extra kostnad.
Hur väl metoden fungerar
Teamet testade sitt tillvägagångssätt på en utmanande publik dataset med undervattensbilder som inkluderar sjögurkor, sjöborrar, pilgrimsmusslor och sjöstjärnor, många av dem små, överlappande eller delvis dolda. Jämfört med ursprungliga RT-DETR ökade det nya systemet den standardiserade detektionspoängen (mean Average Precision) från 70,4 till 72,1 procent samtidigt som antalet parametrar minskade med över en fjärdedel och mängden beräkning minskade med nästan en fjärdedel. Det körs fortfarande i över 70 bilder per sekund, tillräckligt snabbt för realtidsanvändning på typisk grafikmaskinvara. Visuella jämförelser av värmekartor och detektionsresultat visar att den förbättrade modellen fokuserar mer precist på verkliga djur, ignorerar förvirrande strukturer i stenar och tång och återhämtar fler små eller lågkontrastmål i grumliga eller svagt lysa scener.
Vad detta betyder för arbete under vatten
I vardagliga termer visar denna forskning hur man lär en slank, snabb modell att se bättre i ett av jordens svåraste visuella miljöer. Genom att noggrant forma hur nätverket hanterar brusfrekvenser, lokal detalj och funktioner på olika skalor gör författarna objektdetektion under vatten både mer exakt och mer effektiv. Denna balans är viktig för autonoma undervattensfarkoster och andra fältsystem som måste fatta snabba, pålitliga beslut med begränsad datorkraft. När dessa metoder anpassas till fler dataset och inbäddade plattformar kan de hjälpa forskare att övervaka marint liv, ingenjörer att inspektera undervattenskonstruktioner och robotar att navigera komplex bottenterräng med större säkerhet.
Citering: Cai, S., Zhu, A. Real-time underwater object detection via frequency-domain dynamics and spatially enhanced feature modulation. Sci Rep 16, 14884 (2026). https://doi.org/10.1038/s41598-026-44628-9
Nyckelord: objektdetektion under vatten, autonoma undervattensfarkoster, vision i realtid, igenkänning av små objekt, frekvensdomänsfunktions