Clear Sky Science · it
Monitoraggio delle aree agricole e identificazione degli oggetti basati su configurazioni ottimizzate you only look once e single shot multibox detector utilizzando immagini combinate visive e termiche
Occhi più intelligenti per macchine agricole più sicure
I trattori e le mietitrebbie moderne sono sempre più grandi, veloci e automatizzati, il che solleva una domanda semplice ma grave: come evitare che colpiscano persone, animali o altre macchine nascosti in polvere, nebbia o oscurità? Questo articolo descrive un sistema di sicurezza pratico che offre alle attrezzature agricole una sorta di “super-visione” combinando telecamere convenzionali e termiche, e confronta diversi schemi di intelligenza artificiale per capire quale possa rilevare i pericoli con maggiore precisione e rapidità.
Perché il lavoro agricolo necessita di una visione migliore
L’agricoltura si basa sempre più su macchine potenti che lavorano molte ore, spesso di notte o con maltempo. Una telecamera video di base può aiutare l’operatore a vedere intorno al trattore, ma le immagini ordinarie sono inefficaci con nebbia, pioggia, riverbero intenso o buio. Le telecamere termiche, che rilevano il calore anziché la luce, funzionano bene in queste condizioni difficili e fanno risaltare corpi caldi — persone e animali — rispetto allo sfondo. Gli autori sostengono che combinare entrambi i tipi di immagine sia il modo migliore per costruire un sistema di allerta economico, retrofitabile sulle macchine esistenti e integrabile con i pannelli di controllo dei trattori standard.
Come funzionano i sistemi duali e unificati
Il team ha montato un’unità di telecamere combinate RGB (colore normale) e termiche sul tetto di un trattore e ha inviato entrambi i flussi di immagine a un’unità di elaborazione a basso costo in cabina. Hanno esplorato due approcci principali per usare l’intelligenza artificiale nel rilevamento degli oggetti. Nel primo approccio, “a doppia rete”, una rete neurale veniva addestrata solo su immagini normali e una seconda solo su immagini termiche; i loro risultati venivano poi uniti. Nel secondo approccio, “unificato”, le due immagini venivano accuratamente allineate, sovrapposte e passate a una singola rete che apprendeva da entrambe contemporaneamente. Entrambi i progetti sono stati implementati con una famiglia di modelli di rilevamento rapido noti come YOLOv8 e con un design alternativo chiamato SSD, pensato per piccoli computer embedded. 
Costruire e addestrare la visione della macchina sul campo
Per insegnare a queste reti cosa cercare, i ricercatori hanno assemblato un ampio dataset da librerie di immagini pubbliche e dalle proprie registrazioni. Le immagini includevano persone, animali selvatici e domestici, trattori, mietitrebbie, camion, autobus e altre macchine agricole, sia in viste visibili che termiche. Ogni oggetto è stato circondato da una scatola disegnata a mano e assegnato a un’etichetta, e le immagini sono state poi aumentate — ribaltate, ruotate o leggermente sfocate — per imitare la varietà osservata nei campi reali. I dati sono stati suddivisi in set di addestramento, validazione e test in modo che le reti potessero imparare su una porzione e essere valutate in modo equo su immagini mai viste prima. Si è prestata particolare attenzione a misurare non solo la precisione grezza, ma anche quante operazioni di calcolo e quanti fotogrammi al secondo richiedeva ciascun modello, poiché qualsiasi sistema reale per trattori deve funzionare rapidamente e in modo affidabile sul campo.
Quali occhi digitali hanno reso meglio?
Su migliaia di immagini di test, tutte le configurazioni YOLOv8 hanno rilevato molto bene la maggior parte degli obiettivi, in particolare le grandi macchine agricole e gli animali a corpo caldo. Il modello unificato che inglobava sia i dati RGB che termici in un unico flusso ha raggiunto un punteggio complessivo (mean average precision) di circa 0,90, leggermente avanti rispetto all’approccio a doppia rete a 0,88. In altre parole, fondere entrambi i tipi di visione all’interno di una singola rete ha dato un piccolo ma reale vantaggio nelle prestazioni senza rendere il sistema più complesso da usare. I guadagni maggiori dalla termografia si sono avuti per persone e animali in condizioni di scarsa illuminazione, mentre le immagini normali restavano migliori per forme dettagliate come i trattori. Quando il team ha sostituito YOLOv8 con il loro modello SSD snellito, le prestazioni sono diminuite sensibilmente per la maggior parte delle classi, anche se SSD si addestrava molto più rapidamente. YOLOv8, specialmente nella sua versione più piccola “Nano”, ha fornito una maggiore accuratezza pur mantenendo velocità in tempo reale intorno ai 27 fotogrammi al secondo su hardware modesto. 
Trasformare i rilevamenti AI in avvisi semplici
Invece di sovraccaricare il conducente con flussi video, il sistema converte i rilevamenti in una visualizzazione a cruscotto semplice che segue uno standard di comunicazione comune per trattori (ISOBUS). Su un pannello verde, le icone mostrano se una persona, un animale o un veicolo si trova davanti alla macchina, insieme a distanza, direzione e livello di confidenza del sistema. Questa interfaccia essenziale può funzionare sui terminali operatore esistenti ed è progettata per condizioni agricole gravose, con telecamere protette, supporti stabilizzati e controllo di polvere e temperatura previsto per versioni future.
Cosa significa questo per l’agricoltura di tutti i giorni
Per un non specialista, la conclusione è che dotare i trattori di “due tipi di occhi” e di un cervello AI ben scelto può migliorare sostanzialmente la sicurezza senza richiedere hardware esotico. Una singola rete YOLOv8 accuratamente tarata che fonde viste normali e termiche offre il miglior equilibrio tra accuratezza, velocità e semplicità tra le opzioni testate, superando chiaramente il design SSD. Sebbene il sistema presenti ancora qualche difficoltà a riconoscere gli esseri umani in tutte le situazioni — in parte perché nel dataset di addestramento erano presenti meno esempi — lo studio dimostra che sistemi di avviso pratici basati su telecamere per macchine agricole sono sia fattibili che prossimi all’impiego sul campo. Con dati più bilanciati e metodi di fusione perfezionati, le versioni future potrebbero contribuire a prevenire incidenti, proteggere la fauna e rendere l’agricoltura su larga scala più sicura per chi lavora e per chi si trova nei dintorni del campo.
Citazione: Tarasiuk, K., Mystkowski, A., Ostaszewski, M. et al. Agriculture surrounding monitoring and object identification based on optimized you only look once and single shot multibox detector setups using combined vision and thermal images. Sci Rep 16, 5129 (2026). https://doi.org/10.1038/s41598-026-36181-2
Parole chiave: sicurezza agricola, termografia, computer vision, rilevamento oggetti, YOLOv8