Clear Sky Science · zh

使用去雾预处理和增强CTPN模型在有雾交通场景中进行鲁棒文本检测

· 返回目录

透过薄雾识别路牌

在有雾的早晨,即便熟悉的道路也会变得不确定:高速公路标志隐没在灰色中、车道线变得模糊,数字显示难以辨认。对人类驾驶员和自动系统而言,能够在能见度差的情况下可靠地识别文本对安全至关重要。本研究提出了一种方法,使计算机能够“看见”书写信息——例如路牌和其他交通文本——即便浓雾使图像变得浑浊、对比度低。

为什么雾会干扰智能摄像头

现代汽车、交通摄像头和配送机器人越来越依赖计算机视觉来读取日常场景中的文字。深度学习系统在清晰图像上的文本检测已取得显著进步,从店面招牌到车牌都能识别得很好。但雾天仍然是一个顽固的问题。雾降低了对比度、冲淡颜色并软化边缘,使清晰的字母变成涂抹的、苍白的形状。许多主流的文本检测方法要么错过这些微弱的文字痕迹,要么将反光或车辆部分等明亮但无关的区域误判为文本。因此,在标准的晴朗天气数据集上训练的系统在雾霾条件下可能会失效,而这恰恰是在可靠信息最重要的时候。

Figure 1
Figure 1.

先清理视图再阅读

研究者通过在广泛使用的文本检测框架——连接式文本提议网络(Connectionist Text Proposal Network,CTPN)基础上改进来应对这一挑战。他们没有直接将原始有雾图像输入网络,而是先对每张图像进行专门的“去雾”处理。这一步基于描述光在雾霾空气中散射的气溶胶模型。通过比较图像中不同区域在正常条件下应该呈现的暗度,算法估算每个像素前方的雾量,然后在数学上“去除”雾霾。结果是一幅更清晰、对比度更高的图像,字母和数字更清晰地从背景中突显出来,为检测网络提供了更好的起点。

教网络沿文本行跟踪

图像清晰化后,改进的CTPN模型以小的垂直切片分析图像,横向扫描场景以查找文本行。它使用一种最初为识别照片中物体而设计的深度特征提取器来捕捉边缘和纹理的细微模式。在此基础上,双向序列模块学习相邻切片沿文本行如何拼接,帮助区分真实文字与仅形似字符的杂乱形状。网络随后提出可能包含文本的候选框,并以更精细的精度估计它们的位置和高度,即使字母部分模糊或排列不规则也能做到。

更智能地筛选重叠框

检测到文本只是部分问题;计算机还需要从许多重叠的文本区域建议中判断哪些是真正的。传统方法选择最强的框并根据固定的重叠阈值丢弃邻近框。较新的方法称为Soft-NMS,会温和地降低重叠框的置信度而不是直接删除,常能保留紧密排列的文本。然而,每种方法都有弱点:严格筛选可能切掉单词的部分,而软筛选可能留下过多重叠框或高亮非文本对象。本文结合了两种策略的优点:分别用每种方法计算结果,比较它们建议的框如何不同,然后按照学习到的规则混合坐标。该混合后处理保持了水平文本框的整洁,并减少了漏检和误报。

Figure 2
Figure 2.

方法的实测表现

为评估方法效果,作者在两个图像集上进行测试。第一个是常用的日常照片基准数据集,主要包含晴朗场景。第二个由团队构建,聚焦真实的有雾交通图像,专门用于测试恶劣能见度下的性能。在这个雾浓的数据集上,增强方法检测到的真实文本区域明显多于原始CTPN,同时检测正确率也略有提升。总体而言,平衡漏检与误检的综合准确度得分显著上升,表明在不良条件下可靠性有实质性提高。可视化示例显示,在原始模型忽略路牌或误将车辆部件识别为文本的地方,改进系统能更清晰地勾画出实际的文字。

在最关键时刻提供更清晰的警示

简而言之,本文表明先在图像中去除雾霾,再更智能地筛选检测结果,可以显著提升计算机识别道路文本的能力。改进后的系统能够在对肉眼几乎不透的场景中识别路牌文字和其他交通相关文本。这类进展可帮助自动驾驶汽车在恶劣天气中更好地理解周围环境,辅助交通监控系统,并在需要透过烟雾或雾霾读取指示或警告的救援行动中提供帮助。作者指出仍需进一步工作以加速处理并将各步骤整合到一个流畅的模型中,但他们的结果展示了一条朝向更安全、更具抗天气能力的机器视觉的有希望路径。

引用: Han, C., Xiong, Z., Liu, Y. et al. Robust text detection in foggy traffic scenes using an enhanced CTPN model with de-fogging pre-processing. Sci Rep 16, 13335 (2026). https://doi.org/10.1038/s41598-026-43357-3

关键词: 场景文本检测, 有雾交通图像, 图像去雾, 深度学习视觉, 自动驾驶感知