Clear Sky Science · zh

在挑战条件下用于文字轮式水表读数的综合数据集

· 返回目录

为什么老式水表仍然重要

许多城市都在憧憬“智能”基础设施,但在街道下方和地下室里,仍有无数老式机械水表在真实运行中记录我们的用水量。将它们全部替换为现代智能水表代价高昂,尤其对小城镇而言更难承受。本文介绍了一个大规模、精心构建的图像数据集,帮助计算机在肮脏、阴影、模糊和眩光等使人和机器都难以识别的情况下,自动读取这些传统的文字轮水表。

Figure 1
Figure 1.

读取真实世界水表的问题

从照片中读取机械水表看似只需识别一串数字,但现实安装情况往往很混乱。水表常被埋在地表箱或狭窄角落,周围可能有土壤、落叶或垃圾。表面的玻璃可能被污染或起雾,照明条件通常也不理想;阴影、光线不足或闪光灯与阳光产生的强烈反光都很常见。此外,现场工作人员拍摄的照片可能角度偏离或失焦,使数字轮模糊或变形。所有这些因素都会干扰期望获得干净、正面对齐图像的标准计算机视觉系统。

构建真实的图片集合

为了解决这些问题,作者收集了来自杭州真实人工抄表工作的五万多张照片。杭州是一个地下给排水网络复杂且有大量老旧水表的大城市。研究者首先剔除了不可用的图像,并将其余图像统一调整为标准格式,以便算法能一致处理。对每张图像,他们标注了读数出现的精确区域,生成仅显示表窗的“切出”掩码。还为每张照片打上简单的二元标签,描述其存在的挑战——例如是否清晰、模糊、污染、有泥土覆盖、光线暗、反光或是否为六位数字水表。这种多标签设置反映了单张照片可能同时存在模糊和昏暗等多种情况的现实。

从定位表窗到读取数字轮

自动读取实际上包含两个关联任务:第一,找到显示旋转数字轮的小窗;第二,识别数字本身。对于第一步,数据集提供全图及其轮廓掩码,模型可以学习检测和分割出该区域。对于第二步,作者将这些区域裁切并转换为直的矩形切片,使数字轮整齐排列。他们随后为每个切片提供正确的五位或六位读数,并附加描述棘手情况的标签,例如数字条带反向、部分旋转导致“半个”数字可见以及六位表等。这一结构让研究人员可以训练和测试模拟公用事业实际工作流程的系统:先找到表窗,矫正拉直,再读取数字。

Figure 2
Figure 2.

测试计算机能学得多好

为了证明该数据集的作用,作者在其上运行了若干知名的图像分割与识别模型。用于定位读数区域的四种不同分割方法都很快达到了高准确率,在大多数测试图像中几乎完整捕捉到了水表窗。当把场景标签(例如昏暗或反光)与图像一起使用时,可以看出哪些条件对性能影响最大以及影响程度。例如,昏暗场景显著增加了错误率。读取数字时,作者比较了传统与更先进的深度学习模型。较简单的网络运行速度快但错误较多,而更深层的架构如ResNet和DenseNet在大多数情况下几乎正确识别了全部读数,尤其在允许误差一个数字的苛刻情形下表现优异。

这对日常用水意味着什么

简单来说,这项工作并不推出某个新设备或应用,而是提供了一个共享的“训练场”,供其他人构建和比较针对老式水表的自动读取系统。因为这些图像捕捉到了泥污、模糊、昏暗和眩光等真实世界的复杂情况,在此数据集上表现良好的模型更可能在现场可靠运行。反过来,这可以帮助水务单位在不必立即更换数百万现有水表的前提下,向更高效、错误更少、人工更省力的监测方式过渡,从而让更智能的用水管理更加经济且更为普及。

引用: Zhao, S., Gao, Y., Liu, F. et al. A Comprehensive Dataset for Word-Wheel Water Meter Reading Under Challenging Conditions. Sci Data 13, 479 (2026). https://doi.org/10.1038/s41597-026-06809-z

关键词: 水表, 计算机视觉, 智慧城市, 图像识别, 数据集