Clear Sky Science · tr
Sisli trafik sahnalarında güçlendirilmiş bir CTPN modeli ve sis giderme ön işlem ile sağlam metin algılama
Sis İçinden İşaretleri Görmek
Sisli bir sabah, tanıdık yollar bile belirsiz hissedilebilir: otoyol işaretleri griye karışır, şerit işaretleri bulanıklaşır ve dijital ekranlar okunması zor hale gelir. İnsan sürücüler ve otomatik sistemler için böyle kötü görüş koşullarında metinleri güvenilir şekilde tespit edebilmek emniyet açısından hayati öneme sahiptir. Bu çalışma, yoğun sis nedeniyle görüntülerin bulanık ve düşük kontrastlı olduğu durumlarda bile bilgisayarlara yol işaretleri ve diğer trafik metinleri gibi yazılı bilgileri “görmeyi” öğretmenin bir yolunu sunuyor.
Neden Sis Akıllı Kameraları Kafasını Karıştırır
Günümüz araçları, trafik kameraları ve dağıtım robotları giderek daha fazla sahnedeki yazıları okumak için bilgisayarlı görmeye dayanıyor. Derin öğrenme sistemleri, dükkan cephelerinden plakalara kadar temiz görüntülerde metin tespitinde dikkat çekici şekilde iyi hale geldi. Ancak sisli hava hâlâ inatçı bir sorun oluşturuyor. Sis kontrastı azaltır, renkleri soldurur ve kenarları yumuşatır; keskin harfleri yayılmış, soluk şekillere dönüştürür. Önde gelen birçok metin algılama yöntemi, bu zayıf yazı izlerini ya kaçırır ya da yansımalar veya araç parçaları gibi parlak ama alakasız bölgeleri metinle karıştırır. Sonuç olarak, standart temiz hava veri kümeleriyle eğitilmiş sistemler, tam da güvenilir bilginin en çok gerekli olduğu sisli koşullarda başarısız olabilir.

Okumadan Önce Görüntüyü Temizlemek
Araştırmacılar bu zorluğun üzerine, Connectionist Text Proposal Network (CTPN) olarak bilinen yaygın bir metin algılama çerçevesi üzerine inşa ederek çözdüler. Ağı doğrudan sisli ham görüntülerle beslemek yerine, her görüntüyü önce özel bir “sis giderme” aşamasından geçiriyorlar. Bu adım, sisli havada ışığın nasıl dağıldığını tanımlayan bir atmosferik modele dayanıyor. Görüntünün farklı bölgelerinin normal koşullarda ne kadar karanlık olması gerektiğini karşılaştırarak, algoritma her pikselin önündeki sis miktarını tahmin ediyor ve ardından örtüyü matematiksel olarak “çıkarıyor”. Ortaya çıkan, harf ve sayıların arka planlarından daha net ayrıldığı daha yüksek kontrastlı bir görüntü oluyor ve bu da algılama ağına çok daha iyi bir başlangıç noktası sağlıyor.
Ağı Metin Satırlarını Takip Etmesi İçin Eğitmek
Görüntü temizlendikten sonra, geliştirilmiş CTPN modeli sahneyi küçük dikey dilimlere ayırarak metin satırlarını tarıyor. Fotoğraflardaki nesneleri tanımak için orijinalde tasarlanmış derin bir özellik çıkarıcı kullanarak kenar ve doku desenlerinin ayrıntılarını yakalıyor. Bunun üzerine, iki yönlü bir sıra modülü komşu dilimlerin bir metin satırı boyunca nasıl uyum sağladığını öğreniyor; bu sayede gerçek yazıyı karakterlere benzeyen dağınık şekillerden ayırt etmeye yardımcı oluyor. Ağ daha sonra içinde metin olabilecek aday kutular öneriyor ve harfler kısmen bulanık veya düzensiz dizilmiş olsa bile konumlarını ve yüksekliklerini hassas biçimde tahmin ediyor.
Çakışan Kutuları Daha Akıllıca Filtreleme
Metin tespiti hikâyenin yalnızca yarısıdır; bilgisayarların ayrıca birçok çakışan metin bölgesi önerisinden hangilerinin gerçekten doğru olduğuna karar vermesi gerekir. Geleneksel yöntemler en güçlü kutuyu seçip sabit bir örtüşme eşiğine göre komşu kutuları eler. Soft-NMS adı verilen daha yeni bir yaklaşım ise çakışan kutuların güvenini tamamen silmek yerine yumuşakça azaltır ve genellikle birbirine yakın metinleri korur. Ancak her yöntemin zayıflıkları vardır: katı filtreleme gerçek kelimelerin parçalarını kesebilirken, yumuşak filtreleme çok fazla çakışan kutu bırakabilir veya metin olmayan nesneleri öne çıkarabilir. Bu çalışma her iki stratejinin güçlü yanlarını birleştiriyor. Her yöntemi ayrı ayrı hesaplıyor, önerilen kutuların nasıl farklılaştığını karşılaştırıyor ve ardından koordinatları öğrenilmiş bir kurala göre harmanlıyor. Bu hibrit son işleme yatay metin kutularını düzgün tutuyor ve hem kaçırılan tespitleri hem de yanlış alarmları azaltıyor.

Yöntemi Teste Sokmak
Yaklaşımlarının ne kadar iyi çalıştığını görmek için yazarlar bunu iki görüntü koleksiyonunda değerlendirdiler. İlki, günlük fotoğraflardan oluşan standart bir ölçüt veri kümesi olup çoğunlukla açık hava sahnelerini içeriyor. İkincisi ise ekip tarafından oluşturulan, gerçek sisli trafik görüntülerine odaklanan ve zorlu görüş koşullarındaki performansı test etmek için özel olarak tasarlanmış bir veri kümesi. Bu sis ağırlıklı veri kümesinde, geliştirilmiş yöntem orijinal CTPN’e kıyasla çok daha fazla gerçek metin bölgesini tespit etti ve tespitlerin doğruluk oranını da bir miktar iyileştirdi. Genel olarak, kaçırılan ve yanlış tespitleri dengeleyen birleşik bir doğruluk puanı belirgin şekilde yükseldi; bu da olumsuz koşullarda güvenilirlikte kayda değer bir artış gösteriyor. Görsel örnekler, orijinal modelin yol işaretlerini göz ardı ettiği veya araç parçalarını metin olarak hatalı tanımladığı durumlarda geliştirilmiş sistemin gerçek yazıyı daha temiz biçimde çevrelediğini ortaya koyuyor.
En Çok Gerektiğinde Daha Net Uyarılar
Basitçe söylemek gerekirse, bu makale bilgisayarlara önce bir görüntüdeki sisi temizlemeyi, ardından tahminlerini daha akıllıca filtrelemeyi öğretmenin yolunu gösteriyor ve bunun yol üzerindeki metinleri bulmada onları çok daha iyi hale getirebileceğini kanıtlıyor. Geliştirilmiş sistem neredeyse göze görünmez sahnelerde bile işaretlerdeki kelimeleri ve diğer trafikle ilgili metinleri seçebiliyor. Bu tür gelişmeler, otonom araçların kötü hava koşullarında çevrelerini daha iyi anlamasına, trafik izleme sistemlerine yardımcı olmasına ve talimatların veya uyarıların duman veya pus içinde okunması gereken kurtarma operasyonlarına katkıda bulunabilir. Yazarlar süreci hızlandırmak ve tüm adımları tek bir sadeleştirilmiş modele entegre etmek için daha fazla çalışmaya ihtiyaç olduğunu belirtse de, elde ettikleri sonuçlar hava koşullarına daha dayanıklı ve güvenli makine görüsü için umut verici bir yol gösteriyor.
Atıf: Han, C., Xiong, Z., Liu, Y. et al. Robust text detection in foggy traffic scenes using an enhanced CTPN model with de-fogging pre-processing. Sci Rep 16, 13335 (2026). https://doi.org/10.1038/s41598-026-43357-3
Anahtar kelimeler: sahne metni algılama, sisli trafik görüntüleri, görüntü sis giderme, derin öğrenme görme, otonom sürüş algılama