Clear Sky Science · ja
群衆カウントのためのフーリエ変換に基づく単一ドメイン一般化
より賢い群衆カウントが重要な理由
音楽フェスや地下鉄駅、雨の夜の街路まで、ある空間におおよそ何人いるかを把握することは、安全計画、交通制御、緊急対応にとって不可欠です。現在のコンピュータシステムはカメラ映像から群衆の規模を推定できますが、カメラが移動したり、昼夜で照明が変わったり、霧やブレで細部が隠れたりすると性能が低下しがちです。本稿はSinCountという新しい手法を紹介し、こうした混沌とした実世界環境でも自動群衆カウントをより信頼できるものにすることを目指します。

変化する場面がもたらす問題
多くの最新の群衆カウンターはディープラーニングを用い、画像を「密度マップ」に変換します。これは人がいる場所と混雑度を示す一種のヒートパターンで、マップを合計すれば総人数を得られます。こうしたシステムは、運用時の画像が学習時の画像と似ている場合には高精度を発揮します。しかし実際には、カメラの向きはさまざまで、群衆はまばらな歩道から満員のスタジアムまで幅広く、天候や照明は明るい日差しから霧のかかった夜まで変わります。新しい現場ごとにラベル付き画像を収集するのは遅く高価で、各人物を手作業でマーキングする必要があるため特に負担が大きい。その結果、ある環境で学習したモデルが別の環境に移されると性能が落ちることが多く、これを「ドメインシフト」と呼びます。
周波数の視点で群衆を見る
著者らは、画像を単なるピクセルの並びとしてではなく、フーリエ変換で用いられる意味での周波数成分の組み合わせとして捉えることでこの問題に取り組みます。高周波成分は輪郭や細かいディテール、頭や肩のアウトラインといった鋭いエッジを強調します。低周波成分は群衆が大まかにどこにいるか、異なる領域での密度の傾向といった場面の大局的な配置を捉えます。研究チームは、これら二種類の情報が自然に異なるタスクに適合することに気づきました。細かい周波数情報は小さなパッチごとの人数推定に有用であり、滑らかな低周波情報は群衆領域と背景を区別する判断に向いています。
負荷を分担する二つの動作部
この着想に基づき、SinCountは二枝構造を採用します。まず共有の特徴抽出器が画像を処理し、その後に密度ブランチと分類ブランチに分岐します。周波数特化特徴抽出と呼ばれる特別なモジュールが場面の高周波版と低周波版を分離し、それぞれのコンパクトな内部表現を学習します。密度ブランチは空間的注意機構を通じて高周波の指針を受け取り、人に対応しそうな位置を強調して最終的な密度マップを鮮明にします。一方、分類ブランチはチャネルベースの注意を通じて低周波の指針を受け取り、群衆領域に結び付く特徴を強化し、無関係な背景を抑制します。これら二つのブランチが協調することで、空白や紛らわしい領域を無視しつつ群衆領域に焦点を合わせた精緻な密度マップが生成されます。

ノイズの多い世界で焦点を維持する
実画像にはまぶしさ、動体ブレ、照明変化といった気を散らす要素も含まれており、モデルを誤ったパターンへ導くことがあります。これを防ぐために、SinCountはさらに二つの仕組みを導入します。インスタンス正規化マスクは、元の画像と色ジッターやぼかしなどで拡張した画像に対する特徴の反応を比較し、反応が大きく変化する位置を信頼できないものとして抑えます。次に注意の一貫性損失により、見た目が多少変わってもシステムが両方のバージョンで似た領域に注目するよう促し、見落としや焦点のぶれを防ぎます。さらに、追加の学習信号が高周波経路に対して実際の群衆密度に合致するよう、高周波側を強化し、低周波経路には群衆対背景の領域判定をより良くさせます。
実務上の意味
研究者らは、満員のスタジアム、市街地、ブレや低照度の夜間シーンなど、挑戦的な公開データセットでSinCountを評価しました。訓練時に対象シーンの例を一切見せなくても、SinCountは既存の単一ドメイン一般化手法と同等かそれ以上の性能を示し、以前の設計で用いられた大きなメモリモジュールを避けるため処理が速い場合もありました。平たく言えば、このシステムはある環境で群衆の数え方を学び、見たことのない多くの別環境でも堅実に動作します。都市管理者、イベント主催者、安全担当者にとって、これは新しいカメラや新しい場所、変わる天候にも強い群衆監視ツールにつながり、重要な場面で信頼できる人数把握を提供することを示しています。
引用: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3
キーワード: 群衆カウント, ドメイン一般化, フーリエ周波数, コンピュータビジョン, 密度マップ