Clear Sky Science · fr
Surveillance des alentours agricoles et identification d'objets basée sur des configurations optimisées YOLO et SSD utilisant des images combinées visibles et thermiques
Des yeux plus intelligents pour des machines agricoles plus sûres
Les tracteurs et moissonneuses modernes deviennent plus grands, plus rapides et de plus en plus automatisés, ce qui pose une question simple mais cruciale : comment s’assurer qu’ils ne heurteront pas des personnes, des animaux ou d’autres engins cachés par la poussière, le brouillard ou l’obscurité ? Cet article décrit un système de sécurité pratique qui donne aux machines agricoles une sorte de « super vision » en combinant caméras vidéo classiques et capteurs thermiques, puis compare différentes architectures d’intelligence artificielle pour déterminer lesquelles repèrent les dangers le plus précisément et rapidement.
Pourquoi le travail agricole a besoin d’une meilleure vision
L’agriculture repose désormais largement sur des machines puissantes et de grande taille qui travaillent de longues heures, souvent la nuit ou par mauvais temps. Une caméra vidéo basique peut aider l’opérateur à voir autour d’un tracteur, mais les images ordinaires deviennent insuffisantes en cas de brouillard, pluie, éblouissement intense ou obscurité. Les caméras thermiques, qui détectent la chaleur plutôt que la lumière, fonctionnent bien dans ces conditions difficiles et font ressortir les corps chauds — personnes et animaux — du fond. Les auteurs soutiennent que la combinaison des deux types d’images est la meilleure façon de construire un système d’alerte abordable pouvant être adapté aux machines existantes et intégré aux panneaux de contrôle standards des tracteurs.
Comment fonctionnent les systèmes double et unifié
L’équipe a monté une unité caméra combinant RGB (couleur normale) et thermique sur le toit d’un tracteur et a acheminé les deux flux d’images vers une unité de traitement à faible coût située dans la cabine. Ils ont exploré deux approches principales pour utiliser l’intelligence artificielle dans la détection d’objets sur ces images. Dans la première approche « double réseau », un réseau neuronal était entraîné uniquement sur les images normales et un second uniquement sur les images thermiques ; leurs résultats étaient ensuite fusionnés. Dans la seconde approche « unifiée », les deux images étaient soigneusement alignées, empilées et passées dans un seul réseau apprenant des deux sources simultanément. Les deux architectures ont été implémentées avec une famille de modèles rapides de détection d’objets connue sous le nom de YOLOv8 et avec une conception alternative appelée SSD, adaptée aux petits ordinateurs embarqués. 
Construire et entraîner la vision de la machine du champ
Pour apprendre à ces réseaux ce qu’il fallait détecter, les chercheurs ont assemblé un vaste jeu de données à partir de bibliothèques d’images publiques et de leurs propres enregistrements caméra. Les images couvraient des personnes, des animaux sauvages et domestiques, des tracteurs, des moissonneuses, des camions, des bus et d’autres engins agricoles, en vues visibles et thermiques. Chaque objet était entouré d’une boîte dessinée à la main et étiqueté, puis les images ont été augmentées — retournées, pivotées ou légèrement floutées — pour reproduire la variété observée dans les champs réels. Les données ont été divisées en ensembles d’entraînement, de validation et de test afin que les réseaux puissent apprendre sur une portion et être évalués de manière juste sur des images jamais vues auparavant. Une attention particulière a été portée à mesurer non seulement la précision brute, mais aussi le nombre d’opérations de calcul et le nombre d’images par seconde requis par chaque modèle, car tout système réellement déployé sur un tracteur doit fonctionner rapidement et de façon fiable sur le terrain.
Quels yeux numériques ont le mieux performé ?
Sur des milliers d’images de test, toutes les configurations YOLOv8 ont détecté la majorité des cibles très correctement, en particulier les gros engins agricoles et les animaux à corps chaud. Le modèle unifié qui ingérait à la fois les données RGB et thermiques dans un flux unique a atteint un score global (moyenne de précision) d’environ 0,90, légèrement devant la configuration double réseau à 0,88. Autrement dit, fusionner les deux types de vision au sein d’un même réseau a apporté un gain modeste mais réel de performance sans complexifier l’utilisation du système. Les plus grands bénéfices de l’imagerie thermique sont apparus pour les personnes et les animaux en faible éclairage, tandis que les images visibles restaient meilleures pour les formes détaillées comme les tracteurs. Quand l’équipe a remplacé YOLOv8 par leur modèle SSD allégé, les performances ont chuté de manière notable pour la plupart des classes, même si SSD s’entraînait beaucoup plus rapidement. YOLOv8, surtout dans sa plus petite version « Nano », a fourni une précision supérieure tout en atteignant des vitesses temps réel d’environ 27 images par seconde sur du matériel modeste. 
Transformer les détections IA en avertissements simples
Plutôt que de submerger le conducteur avec des flux vidéo, le système convertit les détections en une vue de tableau de bord simple qui suit une norme de communication commune aux tracteurs (ISOBUS). Sur un panneau vert épuré, des icônes indiquent si un humain, un animal ou un véhicule se trouve devant la machine, ainsi que la distance, la direction et le niveau de confiance du système. Cette interface épurée peut tourner sur les terminaux opérateurs existants et est conçue pour les conditions agricoles rudes, avec des caméras protégées, des supports stabilisés et un contrôle de la poussière et de la température prévu pour les versions futures.
Ce que cela signifie pour l’agriculture au quotidien
Pour un non-spécialiste, la conclusion est que doter les tracteurs de « deux types d’yeux » et d’un cerveau IA bien choisi peut améliorer sensiblement la sécurité sans nécessiter de matériel exotiques. Un seul réseau YOLOv8 soigneusement ajusté qui fusionne vues normales et thermiques offre le meilleur compromis entre précision, vitesse et simplicité parmi les options testées, surpassant clairement la conception SSD. Bien que le système ait encore des difficultés à reconnaître les humains dans toutes les situations — en partie parce qu’il y avait moins d’exemples de personnes dans les données d’entraînement — l’étude montre que des systèmes d’alerte pratiques basés sur caméra pour les machines agricoles sont à la fois réalisables et proches d’un déploiement sur le terrain. Avec des données plus équilibrées et des méthodes de fusion affinées, les versions futures pourraient aider à prévenir des accidents, protéger la faune et rendre l’agriculture à grande échelle plus sûre pour tous aux abords des champs.
Citation: Tarasiuk, K., Mystkowski, A., Ostaszewski, M. et al. Agriculture surrounding monitoring and object identification based on optimized you only look once and single shot multibox detector setups using combined vision and thermal images. Sci Rep 16, 5129 (2026). https://doi.org/10.1038/s41598-026-36181-2
Mots-clés: sécurité agricole, imagerie thermique, vision par ordinateur, détection d'objets, YOLOv8