Clear Sky Science · it

Faster R-CNN adattivo al dominio per l’identificazione della mancata DPI sui cantieri da immagini indossate e immagini generiche

2026-01-07 · Torna all'indice

Perché la mancanza di dispositivi di sicurezza passa ancora inosservata

Caschi, giubbotti, mascherine, guanti e scarpe robuste dovrebbero essere obbligatori nei cantieri, eppure le mancanze capitano ancora — e possono essere letali. Molti progetti fanno ora affidamento su telecamere e intelligenza artificiale per segnalare i lavoratori privi dell’equipaggiamento richiesto, ma questi sistemi faticano perché le violazioni reali sono rare e difficili da catturare in video. Questo studio esplora un modo per addestrare sistemi di rilevamento più intelligenti prendendo in prestito esempi da foto di strada comuni, rendendo i controlli automatici della sicurezza più affidabili senza dover aspettare che gli incidenti — o le violazioni — si accumulino.

Trasformare le foto di tutti i giorni in lezioni di sicurezza

L’idea di base è semplice: le persone in luoghi pubblici o negli uffici indossano raramente dispositivi da cantiere, dunque le foto provenienti da questi ambienti sono piene di esempi di “cosa non indossare” su un luogo di lavoro. La sfida è che queste scene appaiono molto diverse dal lavoro reale in cantiere — sfondi, illuminazione e angolazioni della camera cambiano l’aspetto delle persone. L’autore tratta questi due mondi come “domini” differenti: un dominio source con abbondanti esempi di mancata DPI da immagini generiche, e un dominio target con immagini di cantieri meno numerose ma più realistiche, molte riprese da camere montate sul casco dei lavoratori. L’articolo mostra che allineando con cura ciò che il computer impara da entrambi i domini, il sistema può individuare la mancanza di dispositivi su cantieri reali con molta più precisione rispetto a un addestramento basato solo su dati di cantiere.

Come il nuovo controllore di sicurezza «vede» una scena

La ricerca si basa su un popolare sistema di rilevamento degli oggetti chiamato Faster R‑CNN, che analizza un’immagine, propone regioni probabilmente contenenti persone o parti del corpo e poi classifica ciò che vede dentro ogni riquadro. Qui il rivelatore è addestrato a riconoscere cinque tipi di mancanza di DPI: senza casco, senza mascherina, senza guanti, senza giubbotto e senza scarpe di sicurezza. Prima che le immagini vengano fornite al modello, sono pesantemente aumentate — schiarite o scurite, ruotate, sfocate e distorte — per imitare telecamere instabili, luce intensa e angolazioni scomode che sono comuni nei cantieri affollati. Questa varietà sintetica aiuta il modello a rimanere stabile quando le riprese del mondo reale sono meno che perfette, come spesso accade con le camere indossate sul corpo.

Insegnare al sistema a ignorare lo sfondo

Limitarsi a mescolare foto di strada con scatti di cantiere non è sufficiente; il modello potrebbe imparare ad associare la mancanza di DPI ai marciapiedi della città invece che alle persone. Per impedirlo, lo studio introduce moduli di “adattamento del dominio” che spingono delicatamente il sistema a concentrarsi sulle persone e sugli indumenti piuttosto che sulla scena circostante. Un modulo osserva l’immagine nel suo insieme, inducendo la rete a produrre pattern complessivi simili per foto di cantiere e non, nonostante differenze di illuminazione o attrezzature. Un altro opera a livello di ciascuna persona rilevata, assicurandosi che la firma visiva di, per esempio, una testa non protetta appaia simile sia che sia su un’impalcatura sia che sia in una via commerciale. Questi moduli sono addestrati in modo adversariale: un piccolo classificatore cerca di indovinare da quale dominio provenga un’immagine, mentre la rete principale impara a nascondere quell’informazione, mantenendo il focus sui dispositivi di protezione.

Mettere il metodo alla prova

L’autore ha assemblato un dataset consistente combinando filmati da camere indossate su cinque cantieri in Corea del Sud con diverse collezioni di immagini pubbliche. Dopo l’etichettatura manuale di ogni istanza di mancanza di casco, mascherina, guanti, giubbotto e scarpe di sicurezza, lo studio ha addestrato centinaia di modelli con differenti backbone di rete neurale e impostazioni di parametri. Il miglior risultato è stato ottenuto con una rete profonda chiamata ResNet‑152 insieme a forti aumenti delle immagini e ai moduli di adattamento del dominio. Su immagini di cantiere mai viste prima, questa configurazione ha raggiunto una mean Average Precision — un punteggio complessivo per la qualità del rilevamento — di circa il 86,8 percento, mantenendo una velocità di circa 33 fotogrammi al secondo, abbastanza rapida per un monitoraggio quasi in tempo reale. Rispetto a sistemi supervisionati più convenzionali, il modello adattato ha migliorato l’accuratezza fino a 14 punti percentuali, e fino a 39 punti rispetto a un baseline più semplice.

Cosa significa questo per cantieri più sicuri

Per i non specialisti, la conclusione è che un addestramento più intelligente, non solo dataset più grandi, può rendere il monitoraggio automatico della sicurezza molto più affidabile. Imparando sia da foto di tutti i giorni sia da cantieri reali, e insegnando al sistema a ignorare dettagli di sfondo irrilevanti, l’approccio proposto individua con alta attendibilità caschi, giubbotti, guanti, mascherine e scarpe di sicurezza mancanti, anche quando le violazioni reali sono scarse. Pur concentrandosi attualmente su cinque tipi di dispositivi e su un dataset principale di cantiere, offre una roadmap pratica per sistemi futuri che potrebbero monitorare imbracature, corde e altre attrezzature di sicurezza su molti cantieri, aiutando i supervisori a rilevare i problemi presto e a mantenere i lavoratori più al sicuro senza dover sorvegliare i video tutto il giorno.

Citazione: Wang, S. Domain-adaptive faster R-CNN for non-PPE identification on construction sites from body-worn and general images. Sci Rep 16, 4793 (2026). https://doi.org/10.1038/s41598-026-35148-7

Parole chiave: sicurezza nei cantieri, dispositivi di protezione individuale, visione artificiale, adattamento del dominio, rilevamento degli oggetti