Clear Sky Science · ru
Domain-adaptive faster R-CNN для выявления отсутствующих СИЗ на стройплощадках по изображениям с нагрудных камер и общим фотоснимкам
Почему отсутствие защитного снаряжения всё ещё проходит незамеченным
Каски, жилеты, маски, перчатки и прочная обувь на стройке считаются обязательными, но нарушения всё равно происходят — и они могут стоить жизни. Многие проекты теперь используют камеры и искусственный интеллект для выявления работников без требуемого снаряжения, однако такие системы испытывают трудности: реальные нарушения редки и трудноуловимы на видео. В этой работе исследуется способ обучить более умные детекторы, заимствуя примеры из обычных уличных снимков, что делает автоматический контроль безопасности более надёжным без необходимости ждать накопления аварий или нарушений.
Превращая повседневные фото в уроки по технике безопасности
Ключевая идея проста: люди в общественных местах или офисах редко носят строительное снаряжение, поэтому снимки из таких условий полны примеров «чего не следует носить» на рабочем месте. Проблема в том, что эти сцены выглядят совсем иначе, чем реальная стройка — фон, освещение и углы съёмки меняют внешний вид людей. Автор рассматривает эти два мира как разные «домены»: source — домен с обилием примеров отсутствующих СИЗ из общих изображений, и target — домен с меньшим, но более реалистичным набором стройплощадочных снимков, многие из которых сняты с камер, закреплённых на касках работников. В статье показано, что при аккуратном согласовании того, что модель учит в обоих доменах, система способна заметно точнее определять отсутствие СИЗ на реальных площадках, чем при обучении только на данных со стройки.

Как новый контролёр безопасности «видит» сцену
Исследование опирается на популярную систему обнаружения объектов Faster R‑CNN, которая сканирует изображение, предлагает регионы, вероятно содержащие людей или части тела, а затем классифицирует содержимое каждой области. Здесь детектор обучают распознавать пять типов отсутствующего снаряжения: отсутствие каски, маски, перчаток, жилета и защитной обуви. Перед подачей в модель изображения сильно аугментируют — делают светлее или темнее, поворачивают, размывают и искажают — чтобы имитировать тряску камеры, резкий солнечный свет и неудобные углы, которые характерны для оживлённых площадок. Такая синтетическая вариативность помогает модели сохранять стабильность, когда реальные кадры далеки от идеала, как это часто бывает при съёмке с носимых камер.
Обучая систему игнорировать фон
Простое смешивание уличных фото со стройплощадочными снимками недостаточно: модель может начать связывать отсутствие СИЗ не с людьми, а с городскими тротуарами. Чтобы этого избежать, работа вводит модули «адаптации домена», которые мягко заставляют систему фокусироваться на людях и одежде, а не на окружающей сцене. Один модуль смотрит на изображение в целом, подталкивая сеть к тому, чтобы фотографии со стройки и вне её давали похожие глобальные паттерны, несмотря на различия в освещении или оборудовании. Другой работает на уровне каждого обнаруженного человека, обеспечивая, чтобы визуальная сигнатура, скажем, незащищённой головы выглядела похоже, будь она на строительных лесах или на городской улице. Эти модули обучаются в состязательной манере: маленький классификатор пытается определить, из какого домена пришло изображение, в то время как основная сеть учится маскировать эту информацию, удерживая внимание на средствах защиты.

Проверка метода в деле
Автор собрал внушительный набор данных, объединив съёмку с носимых камер с пяти строительных площадок в Южной Корее и несколько публичных коллекций изображений. После ручной разметки каждого случая отсутствия каски, маски, перчаток, жилета и защитной обуви была обучена сотня моделей с разными архитектурами нейросетей и настройками параметров. Лучший результат показала глубокая сеть ResNet‑152 в сочетании с мощной аугментацией изображений и модулями адаптации домена. На ранее не виденных стройплощадочных кадрах эта конфигурация достигла mean Average Precision — сводной метрики качества обнаружения — примерно 86.8 процента, при этом работая примерно на 33 кадрах в секунду, что достаточно быстро для почти реального времени. По сравнению с более традиционными полностью контролируемыми системами адаптированная модель повысила точность до 14 процентных пунктов, а по сравнению с более простым базовым решением — до 39 пунктов.
Что это значит для повышения безопасности на площадках
Для неспециалистов вывод ясен: более умное обучение, а не только большие наборы данных, может сделать автоматический мониторинг безопасности значительно надёжнее. Обучаясь на повседневных фотографиях и реальных кадрах со стройки одновременно и приучая систему игнорировать несущественные фоновые детали, предложенный подход с высокой надёжностью обнаруживает отсутствие касок, жилетов, перчаток, масок и защитной обуви, даже когда истинные нарушения редки. Хотя текущая работа сосредоточена на пяти типах снаряжения и одном основном наборе стройплощадочных данных, она предлагает практический план для будущих систем, которые могли бы отслеживать страховочные пояса, тросы и другое защитное оборудование на множестве площадок, помогая руководителям обнаруживать проблемы на ранней стадии и повышать безопасность работников без постоянного просмотра видео.
Цитирование: Wang, S. Domain-adaptive faster R-CNN for non-PPE identification on construction sites from body-worn and general images. Sci Rep 16, 4793 (2026). https://doi.org/10.1038/s41598-026-35148-7
Ключевые слова: безопасность на строительстве, средства индивидуальной защиты, computer vision, адаптация домена, обнаружение объектов