Clear Sky Science · fr
Algorithme de suivi d'objets basé sur un mécanisme d'attention déformable
Suivre dans un monde encombré et chaotique
Les caméras modernes surveillent des rues animées, des centres commerciaux et des ateliers, mais apprendre aux ordinateurs à suivre de nombreuses personnes et objets en mouvement dans ces scènes est étonnamment difficile. Quand quelqu’un passe derrière un pilier, quand les phares éblouissent ou quand une foule se faufile par une porte, même des logiciels de suivi avancés peuvent perdre la trace, confondre des identités ou consommer trop de ressources de calcul. Cet article présente une nouvelle approche de suivi conçue pour rester plus solidement verrouillée sur les cibles dans ces situations réelles et chaotiques, tout en fonctionnant de manière suffisamment efficace pour une utilisation pratique.

Pourquoi le suivi traditionnel montre ses limites
Les systèmes de suivi d’objets fonctionnent généralement en trois étapes : ils analysent d’abord chaque image vidéo pour extraire les détails visuels, puis combinent l’information à différentes échelles et zones, et enfin prédisent comment chaque cible évolue dans le temps. De nombreuses méthodes récentes ont amélioré l’une de ces étapes à la fois — par exemple en rendant le détecteur meilleur, en accélérant les calculs ou en ajoutant des modèles de mouvement plus intelligents. Mais dans des scènes encombrées et changeant vite, les faiblesses entre ces parties se révèlent. Les « champs de vue » fixes des réseaux standard ne peuvent pas s’adapter aux corps qui se replient ou aux poses changeantes, et les prédictions de mouvement qui supposent des trajectoires lisses et simples peuvent fortement dériver lorsque des personnes s’arrêtent, tournent ou disparaissent brièvement derrière des obstacles.
Un regard flexible pour les cibles en mouvement
Les auteurs abordent ces limites en offrant au système de suivi une façon plus flexible de « regarder » la scène. Ils partent d’un réseau de traitement d’image populaire, le ResNet-18, et y intègrent un mécanisme d’attention déformable. Plutôt que d’échantillonner systématiquement l’information visuelle à des points rigides et régulièrement espacés, ce mécanisme apprend à déplacer ses positions d’échantillonnage vers les zones les plus informatives d’une personne ou d’un objet — par exemple le contour d’un torse ou d’une tête — tout en ignorant le désordre d’arrière-plan. En insérant cette attention flexible dans les couches profondes du réseau, le système peut adapter sa focalisation lorsque les personnes changent de pose, d’échelle ou sont partiellement cachées, sans ajouter une charge de calcul importante. Des tests sur de grands jeux de données montrent que ce regard flexible améliore non seulement la précision du suivi, mais le fait avec moins de 8 % d’augmentation du coût de calcul et une faible augmentation du nombre de paramètres.
Fusionner les détails à travers les échelles et dans le temps
Le suivi simultané de nombreux objets exige également que le système comprenne à la fois les détails fins et la vue d’ensemble. Pour cela, la méthode utilise un module spécial de fusion de caractéristiques, une pyramide de caractéristiques bidirectionnelle, qui mélange l’information de vues grossières et de niveaux élevés avec des détails fins et de bas niveau. Les auteurs améliorent ce module avec la même idée d’attention déformable, lui permettant d’aligner plus précisément des caractéristiques qui pourraient autrement être mal appariées lorsque des personnes se chevauchent ou bougent rapidement. Cela aide à séparer les individus dans des foules denses et réduit les confusions d’identité. Sur la dimension temporelle, l’algorithme s’appuie sur un outil classique de la théorie du contrôle, le filtre de Kalman, mais de façon plus astucieuse. Plutôt que de traiter la prédiction du modèle comme vérité principale et le détecteur comme une petite correction, le comportement du filtre est gouverné par la confiance du détecteur à chaque image. Quand le détecteur est sûr, le système lui fait directement confiance et limite l’accumulation d’erreurs ; quand il est incertain, le filtre s’appuie davantage sur le mouvement passé, en mélangeant les deux sources de manière fluide.

Quelle efficacité dans le monde réel ?
L’équipe évalue leur approche — appelée DAM-Track — sur des bases de données publiques difficiles, conçues pour mettre à l’épreuve les algorithmes de suivi. Sur des tests mono-objet qui mettent l’accent sur de longues séquences et des situations difficiles comme de fortes déformations et des occultations complètes, leur backbone à attention déformable améliore les taux de recouvrement et de succès par rapport au ResNet-18 standard, sans coût excessif. Sur une célèbre référence multi-objets remplie de foules piétonnes extrêmement denses, DAM-Track obtient une meilleure précision globale, une localisation plus nette et une meilleure cohérence d’identité que des méthodes largement utilisées telles que ByteTrack et DeepSORT. Il conserve davantage de trajectoires plus longtemps, perd moins de cibles et s’avère particulièrement efficace pour éviter les changements d’identité, cruciaux pour des applications comme la surveillance de sécurité et l’analyse du trafic.
Qu’est-ce que cela signifie pour les applications courantes ?
Pour un non-spécialiste, la conclusion est que ce travail rend les traqueurs de vision par ordinateur plus résilients dans les scènes désordonnées et imprévisibles qui comptent le plus en pratique — des gares et rues de la ville aux magasins intelligents et véhicules autonomes. En permettant au « regard » du système de se courber vers les régions importantes et en coordonnant l’extraction de caractéristiques, la fusion multi-échelle et la prédiction de mouvement via une notion partagée de confiance, les auteurs construisent un traqueur en boucle fermée qui suit mieux qui est où au fil du temps. Bien que des tests supplémentaires soient nécessaires de nuit, depuis l’air et en configuration multi-caméras, cette conception flexible et consciente de la confiance ouvre la voie à une nouvelle génération de systèmes de suivi capables de surveiller des environnements complexes de manière plus fiable sans exiger des ressources de calcul impraticables.
Citation: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x
Mots-clés: suivi multi-objets, vision par ordinateur, mécanismes d'attention, surveillance de foules, conduite autonome