Clear Sky Science · sv

Fouriertransformbaserad enkel-domän-generaliering för folksamhetsräkning

· Tillbaka till index

Varför smartare folksamhetsberäkningar spelar roll

Från musikfestivaler och tunnelbanestationer till stadsgator en regnig natt — att ha en ungefärlig uppfattning om hur många människor som befinner sig i ett utrymme är avgörande för säkerhetsplanering, trafikstyrning och insatser vid nödsituationer. Dagens datorsystem kan uppskatta publikstorlekar från kamerabilder, men de misslyckas ofta när förhållandena förändras — till exempel när en kamera flyttas, ljuset övergår från dag till natt eller dimma och oskärpa döljer detaljer. I den här artikeln presenteras SinCount, en ny metod som syftar till att göra automatisk folksamhetsräkning betydligt mer pålitlig i den röriga, ständigt föränderliga verkligheten.

Figure 1
Figure 1.

Problemet med föränderliga scener

De flesta moderna räknare för folksamhet använder djupa neurala nätverk för att omvandla en bild till en ”täthetskarta”, ett slags värmekarta som visar var människor finns och hur tätt de står. Att summera denna karta ger det totala antalet. Dessa system kan vara mycket exakta när de bilder de arbetar på liknar de de tränats på. I praktiken varierar verkliga scener dock kraftigt: kameror pekar i olika vinklar, folkmassor sträcker sig från glesa trottoarer till fyllda arenor, och väder och belysning kan skifta från stark sol till dimmiga nätter. Att samla nya annoterade bilder för varje plats är långsamt och dyrt, särskilt eftersom varje person måste markeras manuellt. Som ett resultat presterar modeller som tränats i en miljö ofta sämre när de flyttas till en annan — ett problem som kallas ”domänskifte”.

Att betrakta folksamheter i frekvensdomänen

Författarna angriper detta problem genom att se bilder inte bara som pixlar utan som kombinationer av frekvenser, i bemärkelsen som används i Fouriertransformen. Högfrekventa komponenter framhäver skarpa kanter och fina detaljer, såsom konturerna av huvuden och axlar. Lågfre­kventa komponenter fångar scenernas breda uppbyggnad, till exempel var folkmassan generellt är belägen eller hur tät den är i olika områden. Teamet noterar att dessa två slags information naturligt passar två olika uppgifter: detaljerade frekvensledtrådar är bäst för att uppskatta hur många personer som finns i varje liten yta, medan jämnare, lågfre­kventa ledtrådar är bättre för att avgöra vilka områden som faktiskt innehåller människor kontra bakgrund.

Två samverkande delar som delar bördan

Baserat på denna idé använder SinCount en tvågrensarkitektur. En gemensam funktionsutvinnare bearbetar först en bild och delar sig sedan i en täthetsgren och en klassificeringsgren. En särskild modul, kallad frekvens-specifik funktionsutvinning, separerar hög- och lågfre­kventa versioner av scenen och lär sig kompakta interna representationer av varje. Täthetsgrenen får högfrekvent vägledning via ett spatialt attentionblock som framhäver positioner som sannolikt motsvarar personer och skärper den slutliga täthetskartan. Samtidigt får klassificeringsgrenen lågfre­kvent vägledning genom kanalbaserad attention som stärker funktioner kopplade till folkområden och undertrycker irrelevant bakgrund. Tillsammans producerar dessa två grenar en förfinad täthetskarta som fokuserar på folksamhetsområden samtidigt som tomma eller förvirrande regioner ignoreras.

Figure 2
Figure 2.

Hålla fokus i en bullrig värld

Verkliga bilder innehåller också störningar: bländning, rörelseoskärpa eller ljusförändringar kan få modellen att följa vilseledande mönster. För att skydda mot detta lägger SinCount till två ytterligare idéer. En instancia-normaliseringsmask jämför hur funktioner reagerar på en originalbild och en augmenterad version (till exempel en som ändrats i färg eller blivit oskarp) och tonar ner platser som förändras för mycket, och behandlar dem som opålitliga. En konsistensförlust för attention uppmuntrar sedan systemet att fokusera på liknande regioner i båda bildversionerna, så att dess uppmärksamhet inte vandrar bara för att utseendet skiftat något. Extra träningssignaler driver den högfrekventa vägen att bättre matcha verkliga folktätheter och den lågfre­kventa vägen att bättre skilja folkområden från bakgrund.

Vad resultaten betyder i praktiken

Forskarna testar SinCount på flera utmanande publika dataset, inklusive fyllda arenor, stadsgator och nattliga scener med oskärpa och svagt ljus. Utan att någonsin ha sett exempel från målscenerna under träningen matchar eller överträffar SinCount befintliga metoder för enkel-domängeneraliering, ofta med snabbare bearbetning eftersom den undviker tunga minnesmoduler som tidigare designer använde. Enkelt uttryckt lär sig systemet att räkna folkmassor i en miljö och gör sedan ett stabilt jobb när det sätts in i många andra miljöer det aldrig sett förut. För stadsförvaltare, evenemangsarrangörer och säkerhetstjänster pekar detta mot verktyg för publikövervakning som är mer motståndskraftiga mot nya kameror, nya platser och väderomslag — och som hjälper till att ge tillförlitliga personräkningar när det är som viktigast.

Citering: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3

Nyckelord: folksamhetsräkning, domängeneralisering, Fourierfrekvens, datorseende, täthetskartor