Clear Sky Science · he

זיהוי טקסט עמיד בסצנות תנועה ערפליות באמצעות מודל CTPN משופר עם עיבוד מקדים להורדת ערפל

2026-03-13 · חזרה לאינדקס

לראות את השלטים דרך הערפל

בבוקר ערפילי, אפילו דרכים מוכרות יכולות להיראות לא ודאיות: שלטי הכביש דוהים לאפור, סימוני הנתיבים מטושטשים ותצוגות דיגיטליות קשות לקריאה. הן עבור נהגים אנושיים והן עבור מערכות אוטומטיות, היכולת לזהות טקסט במהימנות בתנאי ראות ירודים היא קריטית לבטיחות. מחקר זה מציג שיטה ללמד מחשבים "לראות" מידע כתוב—כגון שלטי דרך וטקסט תעבורתי אחר—אפילו כאשר ערפל כבד מעמעם את התמונות ומוריד את הניגודיות.

מדוע ערפל מבלבל מצלמות חכמות

מכוניות מודרניות, מצלמות תנועה ורובוטים למשלוחים נשענים יותר ויותר על ראייה ממוחשבת לקריאת מילים בסצנות יומיומיות. מערכות למידה עמוקה הפכו למרשימות בזיהוי טקסט בתמונות ברורות, מחזיתות חנויות ועד ללוחות רישוי. אך מזג אוויר ערפילי עדיין מהווה בעיה עיקשת. הערפל מפחית ניגודיות, מאשט צבעים ומרכך קצוות, והופך אותיות חדות לצורות מטושטשות וחיוורות. רבות מהשיטות המובילות לזיהוי טקסט או מפספסות את הכתיבה החלשה הזו או מבלבלות אזורים בוהקים אך לא רלוונטיים—כמו השתקפויות או חלקי כלי רכב—עם טקסט. כתוצאה מכך, מערכות שהוכשרו על מאגרי נתונים במזג אוויר ברור עלולות להיכשל כאשר התנאים נהיים מעוננים, בדיוק ברגע שהמידע האמין עשוי להיות החשוב ביותר.

לנקות את התמונה לפני הקריאה

החוקרים התמודדו עם האתגר הזה על ידי בנייה על מסגרת זיהוי טקסט נפוצה בשם רשת הצעות טקסט קווניסטית (Connectionist Text Proposal Network, או CTPN). במקום להזין לרשת תמונות ערפליות גולמיות, הם מריצים כל תמונה באמצעות שלב "הסרת ערפל" מיוחד. שלב זה מבוסס על מודל אטמוספרי המתאר כיצד אור מתפזר באוויר מעורפל. על ידי השוואת האופן שבו חלקים כהים שונים של התמונה אמורים להיראות במצב רגיל, האלגוריתם מעריך כמה ערפל נמצא מול כל פיקסל ואז באופן מתמטי "מנכה" את הערפל. התוצאה היא תמונה ברורה יותר ובעלת ניגודיות גבוהה יותר שבה אותיות ומספרים בולטים חדה יותר מהרקע, מה שמעניק לרשת הזיהוי נקודת התחלה טובה בהרבה.

ללמד את הרשת לעקוב אחרי שורות טקסט

לאחר שהתמונה נקייה, מודל CTPN המשופר מנתח אותה בפריסות אנכיות קטנות, סורק את הסצנה לאיתור שורות טקסט. הוא משתמש בחילוץ תכונות עמוק, שתוכנן במקור לזיהוי עצמים בצילומים, כדי ללכוד דפוסים מפורטים של קצוות ומרקמים. מעל לכך, מודול רצף דו-כיווני לומד כיצד הפריסות השכנות משתלבות יחד לאורך שורת טקסט, ועוזר להבדיל בין כתיבה אמיתית לצורות מפוזרות שנראות כמו תווים. הרשת מציעה אז תיבות מועמדות שעלולות להכיל טקסט ומעריכה את מיקומן ואת גובהן בדיוק משופר, אפילו כאשר האותיות מטושטשות חלקית או מסודרות באופן בלתי סדיר.

סינון חכם יותר של תיבות חופפות

זיהוי טקסט הוא רק חצי מהסיפור; מחשבים צריכים גם להחליט אילו מן ההצעות הרבות החופפות לאזורי טקסט הן אכן נכונות. שיטות מסורתיות בוחרות בתיבה החזקה ומוחקות שכנות על בסיס סף חפיפה קבוע. גישה חדשה יותר, שנקראת Soft-NMS, מורידה בעדינות את ביטחוןן של תיבות חופפות במקום למחוקן לחלוטין, וכך לעתים שומרת טקסט הצמוד יחד. אך לכל שיטה יש חולשות: סינון קפדני עלול לחתוך חלקים ממילים אמיתיות, בעוד שסינון רך עלול להשאיר יותר מדי תיבות חופפות או להבליט עצמים שאינם טקסט. עבודה זו משלבת את חוזקות שתי האסטרטגיות. היא מחשבת תוצאות באמצעות כל שיטה בנפרד, משווה כיצד תיבותיהן המוצעות שונות ואז ממזגת את הקואורדינטות לפי כלל שנלמד. עיבוד משלוח היברידי זה שומר על תיבות טקסט אופקיות מסודרות ומפחית הן גילויים שהוחמצו והן אזעקות שווא.

הבאת השיטה למבחן

כדי לבחון עד כמה הגישה שלהם יעילה, המחברים העריכו אותה על שני אוספי תמונות. הראשון, בנצ'מארק סטנדרטי של צילומים יום-יומיים, מכיל ברובו סצנות במזג אוויר ברור. השני, שנוצר על ידי הצוות, מתמקד בתמונות תנועה אמיתיות ערפליות ונועד במיוחד לבחון ביצועים בתנאי ראות קשים. במאגר הכבד בערפל זה, השיטה המשופרת זיהתה הרבה יותר אזורי טקסט אמיתיים מאשר ה-CTPN המקורי, ובמקביל שיפרה במעט את שיעור הדיוק של הגילויים. באופן כללי, מדד דיוק משולב שמאזן בין גילויים שהוחמצו לשגויים עלה באופן ניכר, מה שמעיד על שיפור מהותי באמינות בתנאים קשים. דוגמאות ויזואליות מראות שאיפה שהמודל המקורי התעלם משלטי דרך או זיהה חלקי כלי רכב כטקסט, המערכת המשופרת מתארת בצורה ברורה יותר את הכתיבה האמיתית.

אזהרות ברורות יותר כשזה הכי חשוב

במונחים פשוטים, המאמר מראה שלימוד מחשבים קודם לנקות ערפל בתמונה ולאחר מכן לסנן את ההשערות שלהם באופן חכם יותר יכול לשפר משמעותית את יכולתם לזהות טקסט על הדרך. המערכת המשופרת מסוגלת לזהות מילים על שלטים וטקסט תעבורתי אחר בסצנות שנראות כמעט אטומות לעין האנושית. התקדמות כזו יכולה לסייע לרכבים אוטונומיים להבין טוב יותר את סביבתם במזג אוויר גרוע, לתמוך במערכות ניטור תנועה ואפילו לסייע במבצעי חילוץ שבהם יש לקרוא הוראות או אזהרות דרך עשן או ערפול. המחברים מציינים שנדרש עוד עבודה להאיץ את התהליך ולשלב את כל הצעדים למודל מאוחד וחלק, אך תוצאותיהם ממחישות נתיב מבטיח לעבר ראייה ממוחשבת בטוחה ועמידה יותר בפני תנאי מזג אוויר.

ציטוט: Han, C., Xiong, Z., Liu, Y. et al. Robust text detection in foggy traffic scenes using an enhanced CTPN model with de-fogging pre-processing. Sci Rep 16, 13335 (2026). https://doi.org/10.1038/s41598-026-43357-3

מילות מפתח: זיהוי טקסט בסצנות, תמונות תנועה ערפליות, הסרת ערפל מתמונות, ראייה עמוקה בלמידת מכונה, תפיסת נהיגה אוטונומית