Clear Sky Science · zh
基于傅里叶变换的单域泛化人数统计
为何更智能的人群计数重要
从音乐节和地铁站到雨夜的城市街道,粗略了解某个空间中有多少人对安全规划、交通管控和应急响应至关重要。如今的计算机系统可以从摄像头视频中估算人群规模,但在条件变化时常常失效——例如摄像头移动、光线从白天变为夜晚,或雾霾与模糊遮蔽细节。本文提出了 SinCount,这是一种新方法,旨在使自动人群计数在复杂、多变的现实环境中更可靠。

场景变化带来的问题
大多数现代人群计数器使用深度学习将图像转换为“密度图”,这是一种显示人群位置及其拥挤程度的热图。对该图求和即可得到总人数。当运行时看到的图像与训练时相似,这些系统可以非常准确。但实际上真实场景差异巨大:摄像头视角各异、从稀疏的人行道到拥挤的体育馆不等的人群密度,以及从明亮阳光到雾夜的光照和天气变化。为每个新地点收集带标注的新图像既缓慢又昂贵,尤其是每个人需要手动标注。因此,在一种环境中训练的模型在迁移到另一种环境时常常表现不佳,这就是所谓的“域偏移”问题。
通过频域观察人群
作者通过把图像看作傅里叶变换意义下的频率组合来应对这一问题。高频部分突出了锐利边缘和细节,如头部和肩膀的轮廓;低频部分则捕捉场景的宏观布局,例如人群大致位于何处或不同区域的密集程度。研究团队注意到,这两类信息自然适合不同任务:细粒度的频率线索更适合估计每个小补丁中的人数,而更平滑的低频线索更适合判断哪些区域是真正有人群而不是背景。
分工合作的两条工作路径
基于这一观点,SinCount 采用双分支设计。共享特征提取器先处理图像,然后分为密度分支与分类分支。一个名为频率特定特征提取(Frequency-Specific Feature Extraction)的模块将场景分离为高频和低频版本,并学习各自的紧凑内部表示。密度分支通过空间注意力模块接收高频引导,突出可能对应人的位置,从而使最终的密度图更清晰。与此同时,分类分支通过基于通道的注意力接收低频引导,增强与人群区域相关的特征并抑制无关背景。两条分支协同工作,生成一个既聚焦人群区域又忽略空旷或混淆区域的精炼密度图。

在嘈杂世界中保持关注
真实图像还包含干扰:眩光、运动模糊或光照变化可能使模型倾向于误导性模式。为此,SinCount 引入了两项附加机制。实例归一化掩码比较特征在原始图像与增强后图像(例如颜色扰动或模糊处理)的响应,弱化那些变化过大的位置,将其视为不可靠。注意力一致性损失则鼓励系统在两种图像版本中关注相似区域,从而避免因外观略有变化而分心。额外的训练信号推动高频路径更好地匹配真实的人群密度,低频路径更好地匹配人群与背景的区分。
结果在实践中的意义
研究者在若干具有挑战性的公开数据集上测试了 SinCount,包括拥挤的体育场、城市街道以及带有模糊和弱光的夜间场景。在训练时从未见过目标场景样本的情况下,SinCount 与现有的单域泛化方法相比,表现相当或更优,而且常常处理更快,因为它无需像早期设计那样使用占用大量内存的模块。简单来说,该系统学会在一种环境中进行人群计数,然后能在许多未见过的新环境中表现良好。对于城市管理者、活动组织者和安全官员,这意味着朝向对新相机、新地点和变化天气更具韧性的人群监测工具迈出了一步——在关键时刻提供可靠的头数估算。
引用: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3
关键词: 人群计数, 域泛化, 傅里叶频率, 计算机视觉, 密度图