Clear Sky Science · es
Algoritmo de seguimiento de objetos basado en un mecanismo de atención deformable
Mantener el rastro en un mundo lleno y caótico
Las cámaras modernas vigilan calles concurridas, centros comerciales y plantas de fabricación, pero enseñar a las máquinas a seguir a muchas personas y objetos en movimiento en estas escenas es sorprendentemente difícil. Cuando alguien camina detrás de una columna, cuando los faros provocan deslumbramientos o cuando una multitud se aprieta en una puerta, incluso el software de seguimiento más avanzado puede perder la pista, confundir identidades o consumir demasiados recursos computacionales. Este artículo presenta un nuevo enfoque de seguimiento diseñado para mantenerse fijado en los objetivos de forma más fiable en estas situaciones caóticas del mundo real, a la vez que sigue siendo lo suficientemente eficiente para un uso práctico.

Por qué el seguimiento tradicional se queda corto
Los sistemas de seguimiento de objetos suelen funcionar en tres etapas: primero analizan cada fotograma para extraer detalles visuales, luego combinan información de diferentes escalas y áreas, y finalmente predicen cómo se mueve cada objetivo a lo largo del tiempo. Muchos métodos recientes han mejorado uno de estos pasos a la vez —por ejemplo, mejorando el detector, acelerando los cálculos o añadiendo modelos de movimiento más inteligentes—. Pero en escenas concurridas y que cambian rápido, las debilidades entre estas partes afloran. Los “campos de visión” fijos en las redes estándar no se adaptan a cuerpos que se doblan o poses que cambian, y la predicción de movimiento que asume un desplazamiento suave y simple puede desviarse mucho cuando las personas se detienen, giran o desaparecen brevemente detrás de obstáculo.
Un ojo flexible para objetivos en movimiento
Los autores abordan estos límites dotando al sistema de seguimiento de una forma más flexible de “mirar” la escena. Parten de una columna vertebral de procesamiento de imágenes popular llamada ResNet-18 e incorporan un mecanismo de atención deformable. En lugar de muestrear siempre la información visual en puntos rígidos y espaciados uniformemente, este mecanismo aprende a desplazar sus ubicaciones de muestreo hacia los puntos más informativos de una persona u objeto —como el contorno de un torso o la cabeza— mientras ignora el ruido del fondo. Al insertar esta atención flexible en capas más profundas de la red, el sistema puede adaptar su foco a medida que las personas cambian de pose, escala o quedan parcialmente ocultas, sin añadir mucha carga computacional. Las pruebas en grandes conjuntos de referencia muestran que este “ojo” flexible no solo mejora la precisión del seguimiento, sino que lo hace con menos de un 8 % de incremento en cómputo y solo un pequeño aumento de parámetros.
Fusionando detalles a través de escalas y en el tiempo
Seguir muchos objetos a la vez también exige que el sistema entienda tanto los detalles finos como la imagen global. Para ello, el método emplea un módulo especial de fusión de características, una pirámide de características bidireccional, que mezcla información de vistas gruesas y de alto nivel con detalles finos de bajo nivel. Los autores mejoran este módulo con la misma idea de atención deformable, permitiéndole alinear mejor características que de otro modo podrían desajustarse cuando las personas se solapan o se mueven rápidamente. Esto ayuda a separar individuos en multitudes densas y reduce las confusiones de identidad. En la dimensión temporal, el algoritmo se apoya en una herramienta clásica de la teoría de control, el filtro de Kalman, pero de forma más inteligente. En lugar de tratar la predicción del modelo como la verdad principal y el detector como una pequeña corrección, el comportamiento del filtro se guía por la confianza del detector en cada fotograma. Cuando el detector está seguro, el sistema lo sigue directamente y corta la acumulación de errores; cuando es incierto, el filtro se apoya más en el movimiento pasado, mezclando ambas fuentes de forma suave.

¿Qué tan bien funciona en el mundo real?
El equipo evalúa su enfoque —llamado DAM-Track— en conjuntos de datos públicos y exigentes diseñados para poner a prueba los algoritmos de seguimiento. En pruebas de un solo objeto que enfatizan secuencias largas y situaciones difíciles como fuertes deformaciones y oclusiones totales, su backbone con atención deformable mejora las tasas de solapamiento y éxito respecto a la ResNet-18 estándar, sin un coste añadido elevado. En un famoso benchmark multiobjeto repleto de multitudes de peatones extremadamente densas, DAM-Track alcanza mayor precisión global, una localización más afinada y mejor consistencia de identidad que métodos muy utilizados como ByteTrack y DeepSORT. Mantiene más trayectorias durante más tiempo, pierde menos objetivos y funciona especialmente bien evitando cambios de identidad, algo crucial para aplicaciones como la vigilancia de seguridad y el análisis del tráfico.
Qué significa esto para las aplicaciones cotidianas
Para un público no especializado, la conclusión es que este trabajo hace que los rastreadores de visión por ordenador sean más resistentes en los tipos de escenas desordenadas e impredecibles que más importan en la práctica —desde estaciones de tren y calles urbanas hasta tiendas inteligentes y vehículos autónomos. Al permitir que la “mirada” del sistema se flexione hacia regiones importantes y al coordinar la extracción de características, la fusión multiescala y la predicción de movimiento mediante una noción compartida de confianza, los autores construyen un rastreador en circuito cerrado que mantiene mejor el seguimiento de quién está dónde con el paso del tiempo. Aunque se necesitan más pruebas en entornos nocturnos, aéreos y con múltiples cámaras, este diseño flexible y consciente de la confianza apunta hacia una nueva generación de sistemas de seguimiento que pueden vigilar entornos complejos con mayor fiabilidad sin exigir recursos computacionales poco prácticos.
Cita: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x
Palabras clave: seguimiento multiobjeto, visión por ordenador, mecanismos de atención, vigilancia de multitudes, conducción autónoma