Clear Sky Science · zh

基于傅里叶变换的单域泛化人数统计

2026-04-06 · 返回目录

为何更智能的人群计数重要

从音乐节和地铁站到雨夜的城市街道，粗略了解某个空间中有多少人对安全规划、交通管控和应急响应至关重要。如今的计算机系统可以从摄像头视频中估算人群规模，但在条件变化时常常失效——例如摄像头移动、光线从白天变为夜晚，或雾霾与模糊遮蔽细节。本文提出了 SinCount，这是一种新方法，旨在使自动人群计数在复杂、多变的现实环境中更可靠。

场景变化带来的问题

大多数现代人群计数器使用深度学习将图像转换为“密度图”，这是一种显示人群位置及其拥挤程度的热图。对该图求和即可得到总人数。当运行时看到的图像与训练时相似，这些系统可以非常准确。但实际上真实场景差异巨大：摄像头视角各异、从稀疏的人行道到拥挤的体育馆不等的人群密度，以及从明亮阳光到雾夜的光照和天气变化。为每个新地点收集带标注的新图像既缓慢又昂贵，尤其是每个人需要手动标注。因此，在一种环境中训练的模型在迁移到另一种环境时常常表现不佳，这就是所谓的“域偏移”问题。

通过频域观察人群

作者通过把图像看作傅里叶变换意义下的频率组合来应对这一问题。高频部分突出了锐利边缘和细节，如头部和肩膀的轮廓；低频部分则捕捉场景的宏观布局，例如人群大致位于何处或不同区域的密集程度。研究团队注意到，这两类信息自然适合不同任务：细粒度的频率线索更适合估计每个小补丁中的人数，而更平滑的低频线索更适合判断哪些区域是真正有人群而不是背景。

分工合作的两条工作路径

基于这一观点，SinCount 采用双分支设计。共享特征提取器先处理图像，然后分为密度分支与分类分支。一个名为频率特定特征提取（Frequency-Specific Feature Extraction）的模块将场景分离为高频和低频版本，并学习各自的紧凑内部表示。密度分支通过空间注意力模块接收高频引导，突出可能对应人的位置，从而使最终的密度图更清晰。与此同时，分类分支通过基于通道的注意力接收低频引导，增强与人群区域相关的特征并抑制无关背景。两条分支协同工作，生成一个既聚焦人群区域又忽略空旷或混淆区域的精炼密度图。

在嘈杂世界中保持关注

真实图像还包含干扰：眩光、运动模糊或光照变化可能使模型倾向于误导性模式。为此，SinCount 引入了两项附加机制。实例归一化掩码比较特征在原始图像与增强后图像（例如颜色扰动或模糊处理）的响应，弱化那些变化过大的位置，将其视为不可靠。注意力一致性损失则鼓励系统在两种图像版本中关注相似区域，从而避免因外观略有变化而分心。额外的训练信号推动高频路径更好地匹配真实的人群密度，低频路径更好地匹配人群与背景的区分。

结果在实践中的意义

研究者在若干具有挑战性的公开数据集上测试了 SinCount，包括拥挤的体育场、城市街道以及带有模糊和弱光的夜间场景。在训练时从未见过目标场景样本的情况下，SinCount 与现有的单域泛化方法相比，表现相当或更优，而且常常处理更快，因为它无需像早期设计那样使用占用大量内存的模块。简单来说，该系统学会在一种环境中进行人群计数，然后能在许多未见过的新环境中表现良好。对于城市管理者、活动组织者和安全官员，这意味着朝向对新相机、新地点和变化天气更具韧性的人群监测工具迈出了一步——在关键时刻提供可靠的头数估算。

引用: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3

关键词: 人群计数, 域泛化, 傅里叶频率, 计算机视觉, 密度图