Clear Sky Science · ar

كشف نصوص ثابت في مشاهد مرور ضبابية باستخدام نموذج CTPN معزز مع معالجة مسبقة لإزالة الضباب

2026-03-13 · العودة إلى الفهرس

رؤية اللوحات عبر الضباب

في صباح ضبابي، حتى الطرق المألوفة قد تبدو غير مؤكدة: تختفي لافتات الطريق في الرمادي، تتلاشى خطوط الحارات وتصبح الشاشات الرقمية صعبة القراءة. لكل من السائقين البشريين والأنظمة الآلية، القدرة على اكتشاف النص بثقة في مثل هذه الرؤية الرديئة أمر حاسم للسلامة. تعرض هذه الدراسة طريقة لتعليم الحواسيب «رؤية» المعلومات المكتوبة—مثل لافتات الطرق ونصوص المرور الأخرى—حتى عندما يجعل الضباب الكثيف الصور معتمة ومنخفضة التباين.

لماذا يربك الضباب الكاميرات الذكية

تزداد اعتماد السيارات الحديثة وكاميرات المرور والروبوتات الموزعة على الرؤية الحاسوبية لقراءة الكلمات في المشاهد اليومية. أصبحت أنظمة التعلم العميق جيدة للغاية في اكتشاف النص على الصور الواضحة، من واجهات المتاجر إلى لوحات الأرقام. لكن الطقس الضبابي لا يزال يمثل مشكلة عنيدة. يقلل الضباب التباين، ويطفئ الألوان، ويُنعّم الحواف، محولاً الحروف الحادة إلى أشكال مبعثرة وشاحبة. العديد من أساليب كشف النص الرائدة إما تفوّت هذه الآثار الضعيفة للكتابة أو تخلط بين مناطق مشرقة غير ذات صلة—مثل الانعكاسات أو أجزاء المركبات—والنص. نتيجة لذلك، فإن الأنظمة المدربة على مجموعات بيانات طقس واضح قد تفشل عندما تصبح الظروف ضبابية، تماماً عندما قد تكون المعلومات الموثوقة أكثر أهمية.

تنقية المشهد قبل القراءة

تعامل الباحثون مع هذا التحدي من خلال البناء على إطار كشف نص واسع الاستخدام يسمى شبكة اقتراح النص العصبية الترابطية، أو CTPN. بدلاً من إدخال الصور الضبابية الخام إلى الشبكة، يمررون كل صورة أولاً عبر خطوة متخصصة لـ«إزالة الضباب». تستند هذه الخطوة إلى نموذج جوي يصف كيفية تشتت الضوء في الهواء الضبابي. من خلال مقارنة مدى ظلمة أجزاء مختلفة من الصورة في الظروف الطبيعية، يقدّر الخوارزمية مقدار الضباب أمام كل بكسل ثم «تطرح» الضباب رياضيًا. النتيجة صورة أوضح وأكثر تبايناً تتباين فيها الحروف والأرقام بحدة أكبر عن الخلفيات، مما يمنح شبكة الكشف نقطة انطلاق أفضل بكثير.

تعليم الشبكة تتبع خطوط النص

بمجرد تنظيف الصورة، يحلل نموذج CTPN المحسّن الصورة في شرائح عمودية صغيرة، ماسحاً المشهد لاكتشاف خطوط النص. يستخدم مستخرج ميزات عميق، صُمّم أصلاً للتعرف على الأشياء في الصور الفوتوغرافية، لالتقاط أنماط تفصيلية من الحواف والأنسجة. وعلى ذلك، يتعلّم مكون تسلسلي ثنائي الاتجاه كيف تتوافق الشرائح المجاورة على طول خط نص، مما يساعد على تمييز الكتابة الحقيقية من الأشكال المتناثرة التي تبدو كحروف فقط. ثم تقترح الشبكة صناديق مرشحة قد تحتوي على نص وتقدّر مواقعها وارتفاعاتها بدقة محسّنة، حتى عندما تكون الحروف مشوشة جزئياً أو مرتبة بشكل غير منتظم.

ترشيح أذكى للصناديق المتداخلة

كشف النص هو نصف القصة فقط؛ تحتاج الحواسيب أيضاً إلى تقرير أيّ من الاقتراحات المتداخلة العديدة لمناطق النص صحيحة فعلاً. تختار الطرق التقليدية الصندوق الأقوى وتتخلص من الجيران بناءً على عتبة تداخل ثابتة. نهج أحدث، يُسمى Soft-NMS، يقلل بلطف من ثقة الصناديق المتداخلة بدلاً من حذفها تماماً، مما يحافظ غالباً على النصوص المتقاربة. ومع ذلك، لكل طريقة نقاط ضعف: التصفية الصارمة قد تقطع أجزاء من كلمات حقيقية، بينما التصفية اللينة قد تترك الكثير من الصناديق المتداخلة أو تبرز أجساماً غير نصية. يجمع هذا العمل بين نقاط قوة كلتا الاستراتيجيتين. يحسب النتائج باستخدام كل طريقة بشكل منفصل، يقارن كيف تختلف صناديق الاقتراح، ثم يدمج الإحداثيات وفق قاعدة متعلمة. تبقي معالجة ما بعد المعالجة الهجينة صناديق النص الأفقية مرتبة وتقلل كل من الاكتشافات المفقودة والإنذارات الكاذبة.

وضع الطريقة تحت الاختبار

لاختبار مدى جودة نهجهم، قيّم المؤلفون طريقتهم على مجموعتي صور. الأولى، معيارية لصور يومية، تحتوي في الغالب على مشاهد في طقس واضح. الثانية، التي أنشأها الفريق، تركز على صور مرور ضبابية حقيقية وصممت خصيصاً لاختبار الأداء في ظروف رؤية صعبة. على مجموعة البيانات الشديدة الضباب، اكتشفت الطريقة المحسّنة الكثير من مناطق النص الحقيقية أكثر من CTPN الأصلي، مع تحسين طفيف أيضاً في مدى صحة الاكتشافات. إجمالاً، ارتفع مقياس دقة مجمّع يوازن بين الاكتشافات المفقودة والخاطئة بشكل ملحوظ، مما يشير إلى مكسب كبير في الموثوقية تحت ظروف معاكسة. تُظهر الأمثلة البصرية أنه حيث يتغاضى النموذج الأصلي عن لافتات الطريق أو يخطئ في تحديد أجزاء المركبات كنص، يقوم النظام المحسّن بتحديد محيط الكتابة الفعلي بشكل أنظف.

تحذيرات أوضح عندما يهم الأمر

بعبارات بسيطة، يُظهر هذا البحث أن تعليم الحواسيب أولاً كيف تزيل الضباب من الصورة ثم كيف تصفي تخميناتها بذكاء أكبر يمكن أن يجعلها أفضل بكثير في رصد النص على الطريق. يستطيع النظام المحسّن استخراج كلمات على اللافتات ونصوص متعلقة بالمرور في مشاهد تكاد تكون معتمة للعين المجردة. قد تساعد مثل هذه التقدّمات المركبات الذاتية في فهم محيطها في طقس سيئ، وتدعم أنظمة مراقبة المرور، وتساعد أيضاً عمليات الإنقاذ حيث يجب قراءة تعليمات أو تحذيرات عبر الدخان أو الضباب. بينما يشير المؤلفون إلى أن هناك حاجة لمزيد من العمل لتسريع العملية ودمج جميع الخطوات في نموذج واحد مُنسق، تظهر نتائجهم مسارًا واعدًا نحو رؤية آلية أكثر أماناً ومقاومة للطقس.

الاستشهاد: Han, C., Xiong, Z., Liu, Y. et al. Robust text detection in foggy traffic scenes using an enhanced CTPN model with de-fogging pre-processing. Sci Rep 16, 13335 (2026). https://doi.org/10.1038/s41598-026-43357-3

الكلمات المفتاحية: كشف نص في المشهد, صور مرورية ضبابية, إزالة الضباب من الصورة, رؤية عميقة التعلم, استشعار القيادة الذاتية