Clear Sky Science · fr

Faster R-CNN adapté au domaine pour l'identification de l'absence d’EPI sur les chantiers à partir d'images portées sur le corps et d'images générales

2026-01-07 · Retour à l’index

Pourquoi l'absence d'équipement de sécurité passe encore inaperçue

Casques, gilets, masques, gants et chaussures de sécurité devraient être indispensables sur les chantiers, et pourtant des manquements surviennent — parfois avec des conséquences mortelles. De nombreux projets s'appuient aujourd'hui sur des caméras et l'intelligence artificielle pour signaler les travailleurs dépourvus de l'équipement requis, mais ces systèmes peinent parce que les violations réelles sont rares et difficiles à capturer. Cette étude explore une méthode pour entraîner des systèmes de détection plus intelligents en empruntant des exemples issus de photos de rue ordinaires, rendant les contrôles automatisés de sécurité plus fiables sans attendre l'accumulation d'accidents ou d'infractions.

Transformer des photos du quotidien en leçons de sécurité

L'idée centrale est simple : les personnes dans les lieux publics ou les bureaux portent rarement des équipements de chantier, donc les photos de ces environnements regorgent d'exemples de « ce qu'il ne faut pas porter » sur un chantier. Le problème est que ces scènes diffèrent fortement des environnements de chantier — arrière‑plans, éclairage et angles de prise de vue modifient l'apparence des personnes. L'auteur considère ces deux mondes comme des « domaines » distincts : un domaine source avec une abondance d'exemples de non‑EPI issus d'images générales, et un domaine cible avec moins d'images mais plus réalistes de chantiers, nombreuses provenant de caméras fixées sur les casques des ouvriers. L'article montre qu'en alignant soigneusement ce que l'ordinateur apprend de ces deux domaines, le système peut repérer l'absence d'équipement sur de vrais chantiers bien plus précisément que s'il n'était entraîné que sur des données de chantier.

Comment le nouveau contrôleur de sécurité analyse une scène

La recherche s'appuie sur un système de détection d'objets populaire appelé Faster R‑CNN, qui parcourt une image, propose des régions susceptibles de contenir des personnes ou des parties du corps, puis classifie ce qu'il voit dans chacune de ces boîtes. Ici, le détecteur est entraîné à reconnaître cinq types d'absence d'équipement : absence de casque, absence de masque, absence de gants, absence de gilet et absence de chaussures de sécurité. Avant d'être envoyées au modèle, les images sont fortement augmentées — éclaircies ou assombries, pivotées, floutées et déformées — pour imiter les caméras tremblantes, le soleil violent et les angles maladroits fréquents sur les chantiers. Cette variété synthétique aide le modèle à rester robuste lorsque les images du monde réel sont imparfaites, comme c'est souvent le cas avec des caméras portées sur le corps.

Apprendre au système à ignorer l'arrière‑plan

Mixer simplement des photos de rue et des prises de vue de chantiers ne suffit pas ; le modèle pourrait apprendre à associer l'absence d'équipement aux trottoirs de la ville plutôt qu'aux personnes. Pour l'empêcher, l'étude introduit des modules d'« adaptation de domaine » qui poussent doucement le système à se concentrer sur les personnes et les vêtements plutôt que sur la scène environnante. Un module considère l'image dans son ensemble, incitant le réseau à produire des motifs globaux similaires pour les photos de chantier et hors‑chantier, malgré des éclairages ou des équipements différents. Un autre agit au niveau de chaque personne détectée, veillant à ce que la signature visuelle d'une tête non protégée ressemble, qu'elle apparaisse sur un échafaudage ou dans une rue commerçante. Ces modules sont entraînés de manière adversariale : un petit classifieur tente de deviner de quel domaine provient une image, tandis que le réseau principal apprend à cacher cette information, en gardant son attention sur les équipements de protection.

Mettre la méthode à l'épreuve

L'auteur a constitué un jeu de données important en combinant des séquences de caméras portées provenant de cinq chantiers en Corée du Sud avec plusieurs collections d'images publiques. Après l'annotation manuelle de chaque instance d'absence de casque, de masque, de gants, de gilet et de chaussures de sécurité, l'étude a entraîné des centaines de modèles avec différentes architectures de réseaux neuronaux et réglages de paramètres. Le meilleur modèle utilisait un réseau profond appelé ResNet‑152 associé à une forte augmentation d'images et aux modules d'adaptation de domaine. Sur des images de chantier jamais vues auparavant, cette configuration a obtenu un mean Average Precision — un score global de qualité de détection — d'environ 86,8 %, tout en tournant à environ 33 images par seconde, suffisamment rapide pour une surveillance quasi temps réel. Par rapport à des systèmes supervisés plus conventionnels, le modèle adapté a amélioré la précision jusqu'à 14 points de pourcentage, et jusqu'à 39 points par rapport à une ligne de base plus simple.

Ce que cela signifie pour des chantiers plus sûrs

Pour les non‑spécialistes, la conclusion est que de meilleurs protocoles d'entraînement, pas seulement des bases de données plus volumineuses, peuvent rendre la surveillance automatique de la sécurité beaucoup plus fiable. En apprenant à la fois à partir de photos du quotidien et de véritables chantiers, et en apprenant au système à ignorer les détails d'arrière‑plan non pertinents, l'approche proposée repère avec une grande fiabilité les cas d'absence de casque, de gilet, de gants, de masque et de chaussures de sécurité, même lorsque les violations réelles sont rares. Bien que le travail actuel se concentre sur cinq types d'équipement et un jeu de données principal de chantiers, il offre une feuille de route pratique pour des systèmes futurs pouvant suivre des harnais, des cordes et d'autres équipements de sécurité sur de nombreux sites, aidant les responsables à détecter les problèmes tôt et à protéger les travailleurs sans surveiller les écrans vidéo en permanence.

Citation: Wang, S. Domain-adaptive faster R-CNN for non-PPE identification on construction sites from body-worn and general images. Sci Rep 16, 4793 (2026). https://doi.org/10.1038/s41598-026-35148-7

Mots-clés: sécurité sur les chantiers, équipements de protection individuelle, vision par ordinateur, adaptation de domaine, détection d'objets