Clear Sky Science · tr
Sürüş görevlerinde insan ve algoritmik görsel dikkat
Günlük sürüş için neden önemli
Arabalar daha otomatik hale geldikçe temel bir soru öne çıkıyor: otonom sistemler yolu insanlar gibi "görüyor" mu? Bu çalışma, insan sürücülerin ve yapay zekânın trafikte görsel dikkatlerini nasıl odakladığını inceliyor ve insan benzeri dikkatin dikkatli şekilde eklenmesinin sürüş algoritmalarını hem daha akıllı hem de daha güvenli hale getirebileceğini gösteriyor—bunun için devasa, enerji tüketen yapay zekâ modellerine gerek yok.

İnsan gözleri yolda nasıl hareket eder
Araştırmacılar önce acemi ve deneyimli sürücüleri simüle edilmiş bir sürüş ortamına yerleştirip, üç yaygın güvenlik görevini yerine getirirken göz hareketlerini izlediler: tehlikeleri fark etme, dönmenin veya şerit değiştirmenin güvenli olup olmadığını değerlendirme ve yerinde olmayan nesneleri tespit etme. Sürücülerin dikkati güvenilir bir üç aşamalı ritmi izliyordu. Bir sahne belirdikten hemen sonra gerçekleşen tarama evresinde gözler görüş alanı boyunca genişçe süzülüyor, ağırlıklı olarak nesnelerin konumları yönlendiriyordu. İnceleme evresinde dikkat tek en bilgilendirici bölgeye—örneğin bir yayanın geçtiği nokta veya yolu kapatan bir araca—kilitleniyor ve onun ayrıntılarını ve anlamını inceliyordu. Son olarak yeniden değerlendirme evresinde sürücüler o anahtar nesneyi diğerleriyle karşılaştırıyor, kararlarını doğrulamak için bakışlarını ileri geri kaydırıyordu.
Makineler nereye bakıyor, insanlar nereye bakıyor
Ekip daha sonra sürüş sahneleri için dikkat tabanlı bir derin öğrenme modeli oluşturdu ve modelin içsel “dikkat haritalarını” insan göz hareketlerinden elde edilenlerle karşılaştırdı. Modeli genel nesne algılama üzerinde eğitmek, dikkatinin bir miktar insan benzeri olmasını sağladı, ancak belirli sürüş görevleri için ince ayar yapmak çoğunlukla insan desenlerinden uzaklaştırdı; bu özellikle anlam odaklı zengin inceleme evresinde belirgindi. Genel olarak, insan ile algoritmik dikkat arasındaki korelasyonlar ılımlı kaldı; bu da mevcut sürüş yapay zekâsının insanların nereye ve neden baktıklarının düzenleyici ilkelerini keşfetmekte zorlandığını öne sürüyor.

Arabaları insan odağını ödünç almaya öğretmek
Hangi insan dikkat bileşenlerinin makineler için faydalı olduğunu görmek amacıyla yazarlar insan bakışının farklı evrelerini sürüş modellerine beslediler. Milyonlarca görüntü için doğrudan göz izleme verisi toplamak pratik olmadığı için, sadece beş sürücüden alınan küçük bir örnek üzerinde ayrı bir “insan dikkat üreteci” eğittiler. Bu üreteç yeni sahneler için insan-benzeri dikkat ısı haritaları tahmin etmeyi öğrendi. Ana sürüş modeli yalnızca mekânsal, erken tarama evresini kullandığında anomali tespiti ve yol planlamadaki performansı genellikle kötüleşti veya daha güvenli görünen ama çarpışma açısından daha eğilimli yollar üretti. Buna karşılık, insanların tek en anlamlı bölgeye yoğunlaştığı inceleme evresini kullandığında doğruluk önceki tam uzunlukta bakış kullanan yöntemlerin ötesine geçti ve planlama görevlerindeki çarpışma oranları düştü.
Büyük görüş-dil modellerinin hâlâ kaçırdığı şey
Araştırmacılar ayrıca sürüş sorularını yanıtlayan veya 3B sokak sahneleri için yoğun altyazılar üreten büyük görüş–dil modellerini test ettiler. Soyut muhakemeyi vurgulayan bir soru-cevap görevi için insan dikkati eklemek neredeyse yardımcı olmadı, hatta bazen zarar verdi; bu, böyle modellerin gerekli soyut bilgilerin çoğunu zaten yakaladığını ima ediyor. Ancak belirli kelimeleri kesin nesnelere bağlamayı gerektiren zorlu bir altyazılama görevinde, insanın inceleme evresi dikkati hâlâ büyük kazanımlar sağladı. Bu, büyük modellerin genel olarak iyi muhakeme yapabilse de, yoğun görsel bir sahnede kelimeleri tam olarak doğru noktalara sıkı şekilde bağlamaları gerektiğinde tökezleyebildiklerini ve insan bakışının bu boşluğu kapatmaya yardımcı olabileceğini gösteriyor.
Daha güvenli otomatik araçlar için bunun anlamı
Basit ifadeyle çalışma, insanları bugünün sürüş yapay zekâsından gerçekten ayıranın sadece nereye baktığımız değil, sahnedeki önemli olanın ne olduğunu anında nasıl yargıladığımız olduğunu savunuyor. Bir durumu güvenli veya tehlikeli kılan tek bölgeyi titizlikle incelediğimiz o kompakt anlamsal dikkat patlaması, pek çok algoritmanın eksik olduğu sinyal çıkıyor. Küçük miktarda göz izleme verisinden bu evreyi taklit etmeyi öğrenerek, sürüş sistemleri yol sahnelerini insan benzeri şekilde anlayabilir ve yalnızca her zamankinden daha büyük ve pahalı AI modellerine dayanmak zorunda kalmaz. Bu “anlamsal kestirme”, geleceğin otomatik araçlarını gerçek dünya trafiğinin dağınık, öngörülemez koşullarında daha güvenilir kılmanın verimli bir yolu olabilir.
Atıf: Zheng, C., Li, P., Jin, B. et al. Human and algorithmic visual attention in driving tasks. npj Artif. Intell. 2, 23 (2026). https://doi.org/10.1038/s44387-026-00079-1
Anahtar kelimeler: özerk sürüş, görsel dikkat, insan göz izleme, görüş-dil modelleri, trafik güvenliği