Clear Sky Science · sv
MFR-YOLO: förbättrad UAV-objektigenkänning med mångskalig funktionsförfining via deformbar konvolution och global uppmärksamhet
Varför skarpare drönarsyn är viktig
Från trafikövervakning till sök- och räddningsinsatser vid katastrofer fungerar drönare i allt högre grad som flygande ögon över städer och åkrar. Att upptäcka mycket små, snabbt rörliga bilar eller människor från hög höjd är dock svårare än det ser ut. Denna studie introducerar MFR-YOLO, ett förfinat sätt för drönare att i realtid urskilja många små och förvrängda objekt, vilket hjälper luftburna system att fatta säkrare och smartare beslut.
Utmaningen att se från skyn
Drönarkameror fångar trånga gator, odlingar eller katastrofområden där de flesta mål bara upptar några få pixlar. Objekt ändrar snabbt storlek och vinkel när drönaren rör sig, och byggnader, träd och skuggor blandas med det vi vill upptäcka. Standarddetektorer missar ofta dessa små mål, förväxlar dem med bakgrund eller blir långsamma när de görs mer noggranna. Den populära YOLO-familjen balanserar redan hastighet och precision, men dess vanliga byggstenar förlorar ändå fina detaljer, har svårt med lutade eller utdragna former och saknar kraftfulla verktyg för att bortse från stökig scenografi.

Ett nytt sätt att bevara små detaljer
Författarna bygger vidare på YOLOv12 och designar MFR-YOLO för att skydda små detaljer samtidigt som modellen håller hög hastighet. Först lägger de till en mångskalig funktionsextraktionsmodul som följer två parallella spår. Ett spår fokuserar på att bevara skarpa kanter och texturer så att människor, cyklar och bilar inte försvinner när bilder skalas ned inne i nätverket. Det andra spåret använder flexibla filter som kan "böja" sina provtagningspositioner och på så sätt bättre matcha objekt som framträder roterade, utdragna eller skeva på grund av drönarens förändrade perspektiv. Genom att förena dessa spår skapas rikare kartor som fortfarande bär de fina detaljer som behövs för att känna igen mycket små mål.
Att lära modellen vad som verkligen betyder något
För att hindra nätverket från att distraheras av himmel, träd eller byggnader infogar teamet en global uppmärksamhetsmodul både i funktionsbyggnads- och funktionsblandningsstegen. Denna modul lär sig att lyfta fram regioner och mönster som sannolikt hör till mål samtidigt som irrelevanta områden tonas ner. En del ser över hela bilden för att betona viktiga platser, såsom rader av fordon eller kluster av fotgängare. En annan del justerar styrkan i olika mönstertyper, så att kanaler som beskriver användbara kanter och texturer förstärks medan brusiga kanaler dämpas. Tillsammans hjälper dessa uppmärksamhetssteg modellen att lägga sin kraft på verkliga objekt i stället för bakgrundsbrus.

Kombinera närbilder och helhetssignaler
Utöver individuella förbättringar förfinar MFR-YOLO också hur information i olika skalor blandas. Ett uppgraderat funktionsblock, kallat C3K2-PPA, delar upp informationen i tre grenar. En koncentrerar sig på mycket lokala detaljer, en annan tittar på bredare delar av scenen och en tredje kopplar ihop dem genom en kort kedja av operationer. Nätverket lär sig sedan hur mycket vikt varje gren ska få för en given bild och blandar ihop dem igen med en genvägslänk för att hålla inlärningen stabil. Denna design gör det möjligt för systemet att förstå både små objekt och den större kontexten runt dem, vilket är avgörande när många fordon eller människor överlappar eller delvis döljs.
Hur väl den nya metoden fungerar
Forskarna testade MFR-YOLO på två offentliga drönardataset: VisDrone2021, som täcker trafikerade stadsgator och varierande väderförhållanden, och UA-DETRAC, inriktat på fordonstrafik. Jämfört med flera välkända detektorer inklusive Faster R-CNN, RetinaNet, nyare YOLO-versioner och transformerbaserade modeller nådde MFR-YOLO högre total noggrannhet och, viktigt, upptäckte många fler mycket små objekt samtidigt som färre mål missades. Allt detta klarade modellen samtidigt som bearbetningshastigheten hölls väl över nivån som behövs för realtidsanvändning på typisk inbyggd drönar-hårdvara, utan att kräva stora ökningar i minne eller beräkningskraft.
Vad detta betyder för vardagligt drönaranvändande
För icke-specialister är huvudbudskapet att MFR-YOLO hjälper drönare att se små och trängda objekt tydligare och snabbare i röriga verkliga scener. Genom att omsorgsfullt omforma hur systemet bevarar detaljer, anpassar sig till förvrängda former, fokuserar uppmärksamhet och förenar lokala och globala vyer höjer författarna detekteringskvaliteten utan att offra hastighet. Det gör drönarbaserade verktyg för trafiksäkerhet, jordbruksövervakning och räddningsinsatser mer tillförlitliga och ger en mall för att anpassa synmodeller till andra krävande miljöer.
Citering: Ge, J., Lv, H., Guo, Y. et al. MFR-YOLO: advancing UAV object detection with multi-scale feature refinement via deformable convolution and global attention. Sci Rep 16, 15587 (2026). https://doi.org/10.1038/s41598-026-45641-8
Nyckelord: UAV object detection, small object detection, YOLO, drone imagery, computer vision