Clear Sky Science · ru

Обобщение на одну доменную среду для подсчёта людей на основе преобразования Фурье

2026-04-06 · Назад к списку

Почему важно точнее считать толпу

От музыкальных фестивалей и станций метро до городских улиц в дождливую ночь — приблизительное представление о числе человек в пространстве важно для планирования безопасности, регулирования движения и экстренного реагирования. Современные компьютерные системы умеют оценивать размеры толп по видеокадрам, но часто дают сбой, когда меняются условия — например, камера сдвинута, освещение сменилось с дневного на ночное или туман и размытие скрывают детали. В этой статье представлен SinCount — новый подход, призванный сделать автоматический подсчёт людей значительно более надёжным в хаотичном, постоянно меняющемся реальном мире.

Проблема изменяющихся сцен

Большинство современных методов подсчёта людей используют глубокие нейронные сети, которые превращают изображение в «карту плотности» — своего рода тепловую карту, показывающую, где находятся люди и насколько плотно они скоплены. Суммирование этой карты даёт итоговый подсчёт. Такие системы могут быть очень точны, если рабочие изображения похожи на те, на которых модель обучалась. На практике сцены сильно различаются: камеры смотрят под разными углами, толпы варьируются от редких прохожих до переполненных стадионов, а погода и освещение меняются от яркого солнца до туманных ночей. Сбор новых размеченных изображений для каждого нового места медленный и дорогой — особенно потому, что каждого человека нужно пометить вручную. В результате модели, обученные в одной обстановке, часто дают сбой при переносе в другую — это проблема, известная как «сдвиг домена».

Рассматривая толпу через частоты

Авторы решают эту проблему, рассматривая изображения не только как набор пикселей, но и как комбинацию частот, в смысле преобразования Фурье. Высокочастотные компоненты подчёркивают резкие края и тонкие детали, такие как контуры голов и плеч. Низкочастотные компоненты фиксируют общую структуру сцены — где в целом находится толпа и какова её плотность в разных областях. Команда отмечает, что эти два типа информации естественным образом подходят для разных задач: детальные частотные сигналы лучше для оценки числа людей в каждом небольшом участке, а более гладкие низкочастотные сигналы — для решения, какие области действительно содержат людей, а какие — фон.

Две рабочие ветви, разделяющие нагрузку

Исходя из этой идеи, SinCount использует двухветвую архитектуру. Общий экстрактор признаков сначала обрабатывает изображение, затем разделяется на ветвь плотности и ветвь классификации. Специальный модуль, называемый Frequency-Specific Feature Extraction, выделяет высокочастотные и низкочастотные версии сцены и изучает компактные внутренние представления для каждой из них. Ветвь плотности получает высокочастотное руководство через блок пространственного внимания, который подчёркивает позиции, вероятно соответствующие людям, уточняя итоговую карту плотности. Между тем ветвь классификации получает низкочастотное руководство через канал-ориентированное внимание, которое усиливает признаки, связанные с областями скопления людей, и подавляет нерелевантный фон. Вместе эти две ветви производят уточнённую карту плотности, которая фокусируется на зонах скопления людей, игнорируя пустые или вводящие в заблуждение участки.

Сохранять фокус в шумном мире

Реальные изображения также содержат помехи: блики, смазывание при движении или изменения освещения могут склонять модель к ложным шаблонам. Чтобы защититься от этого, SinCount вводит ещё два приёма. Маска нормализации экземпляра сравнивает, как признаки реагируют на исходное изображение и на его аугментированную версию (например, с искажением цвета или размытием) и ослабляет роли тех областей, которые меняются слишком сильно, считая их ненадёжными. Потеря согласованности внимания затем поощряет систему обращать внимание на схожие регионы в обеих версиях изображения, чтобы фокус не изменялся из‑за небольших сдвигов внешнего вида. Дополнительные обучающие сигналы заставляют высокочастотный путь лучше соответствовать истинным плотностям толпы, а низкочастотный — лучше отделять области с людьми от фона.

Что означают результаты на практике

Исследователи проверили SinCount на нескольких сложных публичных наборах данных, включая переполненные стадионы, городские улицы и ночные сцены с размытием и слабым освещением. Никогда не видя примеров из целевых сцен во время обучения, SinCount сопоставим с лучшими существующими методами однодоменного обобщения или превосходит их, зачастую работая быстрее, потому что избегает тяжёлых модулей памяти, применявшихся в ранних решениях. Проще говоря, система учится считать толпу в одной среде и затем надёжно работает, оказавшись во множестве других, которых она никогда не видела. Для городских служб, организаторов мероприятий и сотрудников по безопасности это означает более устойчивые инструменты мониторинга, которые выдерживают новые камеры, новые локации и переменчивую погоду — помогая давать точные подсчёты людей тогда, когда это важно больше всего.

Цитирование: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3

Ключевые слова: подсчёт людей, обобщение на домен, частоты Фурье, компьютерное зрение, карты плотности