Clear Sky Science · ja

ボディ装着カメラと一般画像を用いた建設現場の非PPE検出のためのドメイン適応型Faster R-CNN

· 一覧に戻る

なぜ安全装備の欠落が見過ごされるのか

ヘルメット、ベスト、マスク、手袋、頑丈な靴は建設現場で必須のはずですが、見落としは依然として起こり、場合によっては致命的になり得ます。多くの現場ではカメラと人工知能で装備の欠如を検出しようとしていますが、実際の違反は稀で映像に残りにくいため、こうしたシステムは苦労します。本研究は、一般の街頭写真から「現場で着用すべきでない例」を借用して学習させることで、事故や違反の蓄積を待たずに自動化された安全チェックをより信頼できるものにする方法を探ります。

日常写真を安全学習に変える

核心は単純です:公共空間やオフィスの人々は滅多に建設用保護具を着用しないため、そうした場面の写真は現場で「着てはいけないもの」の豊富な例を含んでいます。問題はこれらの場面が実際の建設作業とは見た目が大きく異なることです—背景、照明、カメラ角度が人の見え方を変えます。著者はこれらを異なる「ドメイン」とみなし、一般画像から得られる豊富な非PPE例を持つソースドメインと、工事現場の画像(多くは作業者のヘルメットに取り付けられたカメラで撮影)というより現実的だが少数のターゲットドメインを設定します。本稿は、両ドメインから学んだ情報を慎重に整合させることで、建設データだけで訓練した場合よりも実際の現場での装備欠如検出の精度が大幅に向上することを示しています。

Figure 1
Figure 1.

新しい安全チェッカーの見方

研究は人気のある物体検出システムFaster R‑CNNを基盤としています。これは画像をスキャンして人や体の部位を含みそうな領域を提案し、各ボックス内を分類します。ここでは検出器が非ヘルメット、非マスク、非手袋、非ベスト、非靴の五種類の装備欠如を認識するよう訓練されます。画像をモデルに入力する前に、強い輝度変化、回転、ぼかし、歪みなどの大幅なデータ増強を行い、揺れるカメラ、強い日差し、不自然な角度といった忙しい現場でよく起こる条件を模倣します。この人工的な多様性により、実世界の映像がボディ装着カメラから撮影されたときに完璧でない場合でもモデルは安定して動作します。

背景を無視するようシステムを教える

単に街頭写真と建設画像を混ぜるだけでは不十分です。モデルが「欠落」を街路のような背景と結び付けて学んでしまう可能性があります。これを防ぐために、本研究はシステムが人や衣服に注目し、周囲のシーンを無視するよう促す「ドメイン適応」モジュールを導入します。1つのモジュールは画像全体を見て、照明や機材の違いにもかかわらず建設画像と非建設画像が似た全体的パターンを生むようネットワークを促します。もう1つは検出された各人物レベルで働き、足場上であろうと商店街であろうと、例えば保護のない頭部の視覚的特徴が類似に見えるようにします。これらのモジュールは敵対的(アドバーサリアル)に訓練されます:小さな分類器が画像がどのドメイン由来かを見抜こうとし、主ネットワークはその情報を隠すことを学び、保護具への着目を維持します。

Figure 2
Figure 2.

手法の試験

著者は韓国の五つの建設現場からのボディ装着カメラ映像と複数の公開画像コレクションを組み合わせて大規模なデータセットを作成しました。ヘルメット、マスク、手袋、ベスト、安全靴の欠落をすべて手作業でラベル付けした後、異なるニューラルネットワークのバックボーンやパラメータ設定で数百のモデルを訓練しました。最良の性能を示したのはResNet‑152という深いネットワークを用い、強力な画像増強とドメイン適応モジュールを組み合わせた構成でした。未見の建設画像に対してこの構成は検出品質の総合指標である平均適合率(mAP)で約86.8%を達成し、ほぼ毎秒33フレームで動作しておりリアルタイム監視に十分な速さです。従来の教師ありシステムと比べて、適応モデルは最大で14ポイント精度を向上させ、より単純なベースラインと比べると最大39ポイントの改善が見られました。

これが現場の安全に意味すること

専門外の読者への要点は、より大きなデータセットだけでなく、より賢い学習が自動化された安全監視をはるかに信頼できるものにし得るということです。日常写真と実際の作業現場の双方から学び、重要でない背景の詳細を無視するようシステムを教えることで、提案手法は本当の違反が稀でも高い信頼性でヘルメット、ベスト、手袋、マスク、安全靴の欠落を検出します。本研究は五種類の装備と一つの主な建設データセットに焦点を当てていますが、ハーネスやロープといった他の安全装備を多くの現場で追跡する将来のシステムの実用的な設計図を示しており、監督者が映像を一日中注視することなく問題を早期に発見し作業者の安全を高めるのに役立ちます。

引用: Wang, S. Domain-adaptive faster R-CNN for non-PPE identification on construction sites from body-worn and general images. Sci Rep 16, 4793 (2026). https://doi.org/10.1038/s41598-026-35148-7

キーワード: 建設現場の安全, 個人用保護具, コンピュータビジョン, ドメイン適応, 物体検出