Clear Sky Science · es

Un conjunto de datos exhaustivo para la lectura de contadores de agua de tambor bajo condiciones difíciles

· Volver al índice

Por qué los contadores de agua antiguos siguen siendo importantes

Muchas ciudades sueñan con una infraestructura "inteligente", pero bajo las calles y en los sótanos, innumerables contadores mecánicos de agua siguen realizando el trabajo real de registrar cuánto agua consumimos. Reemplazarlos todos por contadores inteligentes modernos es costoso, sobre todo para municipios pequeños. Este artículo presenta un gran conjunto de imágenes cuidadosamente elaborado que ayuda a las máquinas a leer automáticamente estos contadores tradicionales de tambor de cifras, incluso cuando la suciedad, las sombras, el desenfoque y los reflejos dificultan la tarea tanto a personas como a algoritmos.

Figure 1
Figure 1.

El problema de leer contadores del mundo real

Leer un contador mecánico de agua a partir de una fotografía podría parecer tan sencillo como detectar una fila de números, pero las instalaciones reales son desordenadas. Los contadores suelen estar enterrados en cajas subterráneas o en esquinas estrechas, rodeados de tierra, hojas o basura. Sus cubiertas de vidrio pueden estar manchadas o empañadas, y la iluminación rara vez es ideal; las sombras, la poca luz o los fuertes reflejos por flash o luz solar son comunes. Además, las fotos tomadas por operarios en el campo pueden estar en ángulo o fuera de foco, dejando las ruedas numéricas borrosas o distorsionadas. Todos estos factores confunden a los sistemas de visión por computadora estándar, que esperan imágenes limpias y frontales.

Construir una colección de imágenes realista

Para abordar esto, los autores reunieron más de 50.000 fotos procedentes del trabajo real de lectura manual de contadores en Hangzhou, una gran ciudad china con una red de agua subterránea compleja y muchos contadores envejecidos. Primero eliminaron las imágenes inutilizables y redimensionaron el resto a un formato estándar, de modo que los algoritmos pudieran procesarlas de forma consistente. Para cada imagen, marcaron el área exacta donde aparece la lectura, creando una máscara de «recorte» que muestra únicamente la ventana del contador. También etiquetaron cada foto con banderas sencillas de tipo sí/no que describen sus dificultades —si está clara, borrosa, manchada, cubierta de tierra, oscura, reflectante o si procede de un contador de seis dígitos. Esta configuración multietiqueta refleja la realidad de que una sola foto puede ser, por ejemplo, a la vez borrosa y oscura.

De localizar la ventana a leer las ruedas

La lectura automática implica en realidad dos tareas vinculadas: primero, encontrar la pequeña ventana que muestra las ruedas numéricas giratorias, y segundo, reconocer las cifras. Para el primer paso, el conjunto de datos proporciona imágenes completas junto con máscaras que delinean el área de lectura, de modo que los modelos puedan aprender a detectar y segmentar esa región. Para el segundo paso, los autores recortan esas regiones y las transforman en tiras rectangulares y alineadas donde las ruedas de dígitos quedan ordenadas. Luego suministran la lectura correcta de cinco o seis dígitos para cada tira, junto con banderas adicionales que describen casos complejos como tiras invertidas, ruedas parcialmente giradas que muestran «medios» dígitos y contadores de seis dígitos. Esta estructura permite a los investigadores entrenar y evaluar sistemas que imitan el flujo de trabajo real de una compañía de servicios: encontrar la ventana, enderezarla y luego leer los números.

Figure 2
Figure 2.

Evaluando cuánto pueden aprender los ordenadores

Para demostrar la utilidad del conjunto de datos, los autores ejecutaron varios modelos conocidos de segmentación y reconocimiento de imágenes sobre él. Para localizar el área de lectura, cuatro enfoques distintos de segmentación alcanzaron rápidamente alta precisión, capturando correctamente casi toda la ventana del contador en la mayoría de las imágenes de prueba. Cuando usaron las etiquetas de escenario —como oscuro o reflectante— junto con las imágenes, pudieron ver qué condiciones perjudican más el rendimiento y en qué medida. Las escenas oscuras, por ejemplo, provocaron errores notablemente mayores. Para la lectura de dígitos, se compararon modelos clásicos y más avanzados de aprendizaje profundo. Las redes más sencillas fueron rápidas pero cometieron más errores, mientras que diseños más profundos como ResNet y DenseNet reconocieron casi todas las lecturas correctamente, especialmente cuando se permitió un margen de error de un dígito en casos difíciles.

Qué significa esto para el uso cotidiano del agua

En términos claros, este trabajo no introduce un nuevo aparato o aplicación, sino un «campo de entrenamiento» compartido que otros pueden usar para construir y comparar sistemas automáticos de lectura de contadores de estilo antiguo. Dado que las imágenes capturan la suciedad, el desenfoque, la oscuridad y el deslumbramiento del mundo real, los modelos que funcionan bien con este conjunto de datos tienen más probabilidades de ser fiables en el campo. Eso, a su vez, podría ayudar a las compañías de agua a avanzar hacia una monitorización más eficiente, con menos errores y menos trabajo manual sin necesidad de reemplazar de inmediato millones de contadores existentes, haciendo la gestión del agua más inteligente, asequible y accesible para más usuarios.

Cita: Zhao, S., Gao, Y., Liu, F. et al. A Comprehensive Dataset for Word-Wheel Water Meter Reading Under Challenging Conditions. Sci Data 13, 479 (2026). https://doi.org/10.1038/s41597-026-06809-z

Palabras clave: contadores de agua, visión por computadora, ciudades inteligentes, reconocimiento de imágenes, conjunto de datos