Clear Sky Science · sv
YOLO-MFD: ett multiskaligt funktions- och dynamiskt huvudramverk för prefab kustnära undervattensobjektsdetektion
Smartare blickar under stadens stränder
När städer bygger fler murar, pirer och prefab revetment längs floder och insjöar hamnar mycket av den kritiska infrastrukturen under vattenytan. Att kontrollera om dessa block är stabila, spruckna eller fyllda med skräp är svårt, särskilt i grumligt, grunt vatten där sikten är dålig. Denna artikel introducerar YOLO-MFD, ett nytt datorseendesystem som hjälper undervattensrobotar att snabbare och mer pålitligt upptäcka små, svaga objekt längs stränder — även när vattnet är grumligt och scenen är trång.
Varför undervattensbilder är så svåra att tolka
Floder, sjöar och urbana strandvatten är sällan kristallklara. Ljuset absorberas och sprids, färger skiftar mot grönt eller blått och uppvirvlande partiklar suddar ut kanter. Små organismer, marint skräp eller defekter i prefab-kustblock kan vara små, lågkontrastiga och tätt packade. Standardmetoder för objektdetektion, ursprungligen utformade för klara gatsscener, missar ofta dessa mål eller förväxlar dem med bakgrundsbrus. Samtidigt har inspektionsrobotar och inbäddade enheter som används vid stränder begränsad beräkningskraft, så en lösning måste vara både noggrann och effektiv.
En trestegs-hjärna för grumligt vatten
YOLO-MFD bygger på den populära YOLO-familjen av realtidsdetektorer men omformar sitt interna "hjärna" i tre samordnade steg. Först lär en ny ryggrad kallad CUMANet (Cross-scale Unified Multi-scale Attention Network) sig att extrahera bildfunktioner samtidigt som den väger in bredare kontext. Den använder parallella grenar och en specialiserad konvolution som beter sig som en flergrenig modul under träning men förenklas till en enda, effektiv operation vid utrullning. Detta hjälper nätverket att se bortom lokalt brus, fånga långräckviddssignaler och bevara viktiga detaljer som annars skulle tvättas ut av grumlighet och färgförskjutningar.

Hålla reda på små ledtrådar i olika skala
Det andra steget, Adaptive Feature Modulation (AFM), tar itu med en vanlig svaghet i visionssystem: när information från grova och fina upplösningar kombineras brukar detaljnivån på liten skala gå förlorad. AFM för samman två feature-mappar genom att först anpassa deras storlek och kanaler, och sedan beräkna mjuka, oberoende grindar för varje gren. Istället för att tvinga en skala att dominera låter AFM båda bidra när de bär användliga signaler, och lägger till en residual genväg för att undvika att svaga men viktiga mönster försvinner. Denna balanserade multiskaliga fusion är särskilt hjälpsam för att upptäcka små sjögurkor, sjöstjärnor eller sprickor i betong som knappt sticker ut från bakgrunden.
En mer flexibel slutgiltig beslutsfattare
Det sista steget, DPNDyHead (Dual-Pooling and Normalized Dynamic Head), förfinar funktionerna precis innan systemet bestämmer vad och var objekten är. Det lånar idén om deformbara konvolutioner, som flyttar sina sampelpunkter för att bättre följa suddiga eller förvrängda former under vatten. För att hantera objekt i mycket olika storlekar använder DPNDyHead både medel- och maxpooling över skalor, vilket blandar global kontext med skarpa lokala responser såsom kanter eller textur. Ett normaliseringssteg stabiliserar funktionsstatistiken innan uppgiftspecifika aktiveringar genereras, vilket minskar effekten av färgskiftningar och ojämn belysning. Tillsammans hjälper dessa trick att bättre överensstämma klassificeringens förtroende (vad objektet är) med lokalisationens precision (var det är).

Hur bra fungerar det i verkligheten?
Författarna testade YOLO-MFD på två publika undervattendataset från akvakultur och öppna havsfarmer, som innehåller många små, tätt packade mål och kraftig bildförsämring. På både DUO och UDD överträffade det nya ramverket klassiska tvåstegsdetektorer, anchor-fria metoder, moderna Transformer-baserade modeller och nyare YOLO-varianter. Det uppnådde högre medel-Average Precision och recall — vilket betyder att det både hittade fler sanna objekt och gjorde färre misstag — samtidigt som det använde endast ett fåtal miljoner parametrar och måttlig beräkningskraft. Detaljerade experiment visade att var och en av de tre modulerna (CUMANet, AFM och DPNDyHead) gav mätbara förbättringar, och deras kombination gav den bästa övergripande balansen mellan noggrannhet, robusthet och hastighet.
Tydligare insikt för säkrare stränder
I praktiska termer ger detta arbete undervattensrobotar och övervakningssystem en skarpare, mer tillförlitlig bild av vad som finns längs urbana stränder och konstruerade flodbanker. Genom att designa en objektdetektor som uttryckligen motverkar grumligt vatten, skalobalans och missanpassade prediktioner erbjuder författarna ett verktyg som bättre kan följa infrastrukturens skick, stödja ekologiska inventeringar och vägleda intelligent förvaltning av prefab kuststrukturer. När framtida arbete utforskar bredare miljöer och ännu lättare versioner av modellen kan metoder som YOLO-MFD bli en nyckelkomponent i rutinmässig undervattensinspektion och bidra till att hålla kuststäder och inlandsvattendrag säkrare och bättre underhållna.
Citering: Gang, Y., Li, T., Li, S. et al. YOLO-MFD: a multi-scale feature and dynamic head framework for prefabricated shoreline underwater object detection. Sci Rep 16, 10971 (2026). https://doi.org/10.1038/s41598-026-45591-1
Nyckelord: undervattensobjektsdetektion, kustnära infrastruktur, datorseende, autonoma undervattensfarkoster, djupinlärning