Clear Sky Science · es

Un algoritmo de detección de objetos basado en un mecanismo de atención en grupo en cascada para residuos de construcción y demolición

2026-03-02 · Volver al índice

Por qué importa una clasificación de residuos más inteligente

Cada vez que se construye o se derriba un edificio se generan montañas de escombros: trozos de hormigón, ladrillos rotos, baldosas, madera, metal y plástico. Estos residuos de construcción y demolición representan ahora alrededor del 40 % de la basura en muchas ciudades. Entre esos escombros hay materiales valiosos que podrían reciclarse en nuevos productos de construcción, pero hoy gran parte de la clasificación se sigue haciendo a mano, lo que es lento, costoso y peligroso. Este artículo presenta un nuevo sistema de visión por ordenador capaz de detectar y clasificar automáticamente distintos tipos de residuos de construcción en tiempo real, incluso cuando las piezas son pequeñas, están superpuestas o se parecen mucho entre sí.

El reto de ver orden en un montón de escombros

Clasificar restos mixtos de construcción es sorprendentemente difícil para las máquinas. Piezas de hormigón y de baldosa cerámica, por ejemplo, comparten a menudo colores y texturas similares, lo que facilita la confusión. En escenas reales, fragmentos grandes están junto a astillas diminutas, muchos objetos quedan parcialmente ocultos y la iluminación o el ángulo de la cámara pueden cambiar la apariencia de los materiales. Los sistemas de inteligencia artificial previos para esta tarea o bien carecían de precisión, tenían dificultades con objetos muy pequeños, o requerían una potencia de cálculo alta, poco realista para líneas de clasificación y equipos móviles. Los autores se centran en mejorar una familia popular de modelos de detección rápida de objetos, conocida como YOLO, para manejar mejor estas escenas desordenadas sin reducir la velocidad.

Una nueva forma de que la red preste atención

El núcleo del nuevo método es un “backbone” rediseñado que procesa las imágenes por etapas, inspirado en los modelos transformer usados en lenguaje y visión. En lugar de tratar la imagen solo en parches locales pequeños, la red aprende cómo se relacionan regiones distantes entre sí, lo que ayuda cuando los objetos se solapan o se integran en el fondo. Para hacerlo de forma eficiente, los autores introducen un mecanismo de atención en grupo en cascada. Dividen la representación interna de la imagen en grupos, permiten que cada grupo se concentre en patrones internos y luego van pasando la información gradualmente de un grupo a otro. Este esquema de “enfoque local primero, refinamiento global después” permite al modelo enfatizar diferencias sutiles entre, por ejemplo, hormigón y cerámica, manteniendo al mismo tiempo la memoria y el cómputo lo suficientemente bajos para uso en tiempo real.

Observar los residuos a varias escalas a la vez

Más allá de reconocer tipos de material, el sistema también debe localizar objetos de tamaños muy distintos, desde fragmentos diminutos hasta vigas grandes. Por eso el modelo usa varias capas que operan cada una a una resolución distinta de la imagen. Un módulo de interacción dedicado deja fluir la información tanto desde capas gruesas y de visión global hacia las finas y detalladas como en sentido inverso. Las capas gruesas aportan contexto general—dónde están los montones, cómo se agrupan los objetos—mientras que las capas finas aportan bordes y texturas nítidas. Un componente de atención espacial resalta las regiones más informativas en cada escala y suprime el fondo distractor. Finalmente, ramas de detección separadas en cada resolución predicen dónde están los objetos y a qué material pertenecen, con una configuración de entrenamiento que fomenta colocación precisa de los recuadros y equilibra la búsqueda de muchos objetos frente a evitar falsas alarmas.

Poner el sistema a prueba

Para evaluar su enfoque, los investigadores usaron dos conjuntos de datos públicos de residuos de construcción y demolición. Uno, llamado BTC, contiene imágenes de ladrillos, baldosas y hormigón; el otro, SWP, se centra en acero, madera y plásticos e incluye miles de imágenes de alta resolución. El equipo comparó su método con varias versiones existentes de modelos YOLO adaptadas a esta tarea. Su sistema obtuvo puntuaciones de detección notablemente superiores en ambos conjuntos de datos, especialmente en la medida más exigente que juzga cuán precisamente los recuadros predichos se alinean con los contornos reales de los objetos. Fue especialmente robusto manteniendo una sensibilidad muy alta—casi sin objetos perdidos—mientras conservaba una carga computacional modesta, competitiva o inferior a la de muchos modelos rivales.

Qué significa esto para el reciclaje en el mundo real

Para el público general, la conclusión clave es que los autores han construido un “ojo” más inteligente para clasificar escombros de construcción, capaz de detectar y distinguir materiales reciclables en escenas caóticas y concurridas mejor que herramientas anteriores. Al combinar mecanismos de atención eficientes con procesamiento multiescala, el sistema localiza piezas pequeñas y solapadas con mayor precisión, manteniéndose lo bastante rápido como para ser práctico en hardware industrial. Persiste cierta confusión entre desecho y fondo, pero el rendimiento global es sólido y estable entre distintos conjuntos de datos. A largo plazo, estos avances podrían ayudar a las instalaciones de reciclaje a recuperar más material valioso con menos trabajo manual, reducir el vertido en vertederos y hacer la industria de la construcción más limpia y eficiente en el uso de recursos.

Cita: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

Palabras clave: detección de residuos de construcción, visión por deep learning, reciclaje automatizado, detección de objetos, Mecanismos de atención