Clear Sky Science · tr

Görme engelli kullanıcıların bağımsızlığını artırmak için Raspberry Pi üzerinde yapay zeka destekli BlindSpot VisionGuide sistemi

· Dizine geri dön

İnsanların Görmeye Daha Az Bağlı Olmasına Yardım Etmek

Sınırlı görme yetisine sahip veya hiç görmeyen milyonlarca insan için, görme yetisi olanların doğal karşıladığı gündelik işler—bir arkadaşının yüzünü tanımak, bir odada ne olduğunu anlamak veya haberleri takip etmek gibi—yardım olmadan yorucu veya imkansız olabilir. Bu makale, sesli komutları dinleyen, bir kameraya bakan ve sesli rehberlik ile yanıt veren, düşük maliyetli bir Raspberry Pi bilgisayarı üzerine kurulmuş kompakt bir sistem olan BlindSpot‑VisionGuide’i tanıtıyor. Görsel bilgiyi gerçek zamanlı olarak sese dönüştürerek, görme engelli kullanıcılara evde, işte ve hareket halindeyken daha fazla bağımsızlık sağlamayı amaçlıyor.

Figure 1
Figure 1.

Küçük Bir Kutu, Üç Yararlı Yetenek

BlindSpot‑VisionGuide, üç ana yeteneği tek bir cihazda topluyor. Birincisi, tanıdık yüzleri tanıyabiliyor; böylece kullanıcı bir tanıtım beklemeden kimin odaya girdiğini öğrenebiliyor. İkincisi, kameranın gördüğünü açık bir dille betimleyebiliyor; örneğin masada oturan bir kişi veya bir korkulukta dinlenen bir kuş gibi. Üçüncüsü, çevrimiçi gazetelerden başlıklar ve kısa özetler çekip bunları yüksek sesle okuyabiliyor. Tüm bunlar, hobi projelerinde sık kullanılan kredi kartı boyutunda bir bilgisayar olan Raspberry Pi 5 üzerinde; küçük bir kamera, mikrofon ve hoparlör veya kulaklıkla birlikte çalışıyor.

Dokunmak Yerine Konuşmak

Ekranlar, düğmeler veya dokunma hareketleri yerine sistem neredeyse tamamen sese dayanıyor. Raspberry Pi basit sesli komutları sürekli dinliyor; örneğin “yüz modülünü çalıştır” veya “gazete modülünü çalıştır” gibi. Kullanıcı yüz tanımayı tetiklediğinde, kamera canlı video yakalıyor, yazılım herhangi bir yüzü izole ediyor, bunları cihaz üzerinde küçük bir tanıdık galeri ile karşılaştırıyor ve ardından en yakın eşleşmeyi seslendiriyor. Sahne betimlemesi için kullanıcı kamerayı hedeflemek üzere kısa bir süreye sahip oluyor; sistem sonra bir fotoğraf çekiyor ve bunu doğal sesli bir cümle üreten gelişmiş bir görüntü‑metin modeline gönderiyor; üretilen metin konuşmaya dönüştürülüyor. Haberler için sistem çevrimiçi bir servise bağlanıyor, son makaleleri—ülke, tarih ve diğer seçeneklere göre—filtreliyor ve sonra her başlık ile özeti sabit, net bir sesle okuyor.

Akıllı Parçaların Birlikte Çalışması

Sahne arkasında, BlindSpot‑VisionGuide modern yapay zeka araçlarına dayanıyor ancak bunları çok pratik, mühendislik odaklı bir şekilde kullanıyor. Yüz tanımada, her yüzü derin bir ağ kullanarak kompakt bir sayısal “parmak izi”ne dönüştürüyor ve bu parmak izini saklanan örneklerle karşılaştırıyor. 20 gönüllü ve 300 görüntü ile yapılan testlerde, kişileri yaklaşık %94 doğrulukla tanıdı ve genellikle yüz başına çeyrek saniyenin altında bir sürede yanıt verdi. Görüntü başlıkları için BLIP adlı güçlü bir model kullanılıyor; bu model bir görsel modül ile bir dil modülünü birleştiriyor. Bu zengin betimlemeler üretiyor, ancak küçük Raspberry Pi üzerinde bir başlığı seslendirmesi yaklaşık 4,5 saniye sürüyor—statik bir sahneyi anlamak için yeterince hızlı, fakat yoğun bir caddeden karşıdan karşıya geçmek gibi ani kararlarda henüz yeterli değil. Gazete modülü, kırılgan web kazımaya (scraping) değil web programlama arayüzlerine (API) dayanıyor; bu, güncel haberlere güvenilir erişim sağlarken ağ üzerinden gönderilen kişisel veri miktarını da sınırlıyor.

Figure 2
Figure 2.

Hız, Güç ve Gizliliği Dengelemek

Temel zorluk, uzak bulut sunucularına güvenmeden tüm üç yeteneği küçük, düşük güçlü bir bilgisayara sığdırmak. Yazarlar bunu giderek daha büyük sinir ağları yarışından ziyade bir sistem mühendisliği sorunu olarak ele alıyor. Aynı anda yalnızca bir modül çalışıyor; kamera, mikrofon ve konuşma motoru paylaşılarak bellek kullanımı ve pil tüketimi kontrol altında tutuluyor. Yüz tanıma ve sahne betimlemesi modeller cihazda depolandıktan sonra tamamen çevrimdışı çalışıyor; bu da kullanıcı gizliliğini korumaya yardımcı oluyor. Düzenli internet kullanımı yalnızca güncel haberleri çekmek için gerekli ve hatta burada sistem makaleleri önbelleğe alabiliyor, böylece bağlantı olmadan daha sonra tekrar oynatılabiliyor. 15 görme engelli katılımcı ile yapılan kullanıcı testlerinde genel kullanılabilirlik standart bir anket ile “mükemmel” olarak değerlendirildi; görev başarı oranları yüksek ve zihinsel iş yükü nispeten düşüktü.

Gündelik Hayat İçin Ne Anlama Geliyor

Basitçe söylemek gerekirse, BlindSpot‑VisionGuide düşük maliyetli, cep büyüklüğünde bir bilgisayarın görmeye güvenemeyen biri için kullanışlı bir “göz ve kulak” seti sunabileceğini gösteriyor. Yeni öğrenme algoritmaları icat etmiyor; bunun yerine mevcut yüz, dil ve konuşma araçlarının dikkatle birleştirilip yerelde çalıştırılabileceğini, birçok gündelik durum için yeterince hızlı yanıt verebileceğini ve kullanıcı gizliliğine saygı gösterebileceğini kanıtlıyor. Sistem henüz hızlı, güvenlik açısından kritik navigasyon için uygun değil ve canlı haberler için internete ve yalnızca İngilizce konuşmaya bağlı kalıyor. Ancak donanım hızlandırıcılar, daha hızlı modeller ve çok dilli sesler yaygınlaştıkça, bu tür entegre, sesle çalışan kutu görme engelli kullanıcılar için pratik bir yardımcı olabilir; insanları tanımalarına, çevrelerini anlamalarına ve başkalarına daha az bağımlı kalarak bilgi sahibi olmalarına yardımcı olabilir.

Atıf: Sudha, M., Swaminathan, S., Suba, M. et al. AI-powered BlindSpot VisionGuide system on raspberry Pi for enhancing independence of visually impaired users. Sci Rep 16, 11316 (2026). https://doi.org/10.1038/s41598-026-39724-9

Anahtar kelimeler: yardımcı teknoloji, görme engellilik, Raspberry Pi, bilgisayarlı görü, metinden konuşmaya