Clear Sky Science · tr

Göz kuruluğu hakkında halkla ilişkiler videolarının kalite değerlendirmesinde video büyük dil modellerinin kıyaslamalı değerlendirmesi

· Dizine geri dön

Günlük izleyiciler için bunun önemi

Kısa video uygulamaları, milyonlarca insanı etkileyen göz sorunları gibi sağlık konularında ilk başvuru kaynağı haline geliyor; bunların arasında göz kuruluğu da var. Ancak faydalı kliplerin yanında düşük kalitede veya yanıltıcı videolar da kolayca bulunuyor ve doktorların bunları denetlemesi zor. Bu çalışma, videoları "izleyebilen" yeni yapay zeka sistemlerinin bu sağlık kliplerinin kalitesini otomatik olarak kontrol edip edemeyeceğini sorguluyor ve şimdilik bu tür araçların uzmanın yargısının yerini alacak düzeyde olmadığını gösteriyor.

Figure 1
Figure 1.

Göz kuruluğu ve sağlık videolarının yükselişi

Göz kuruluğu küçük bir rahatsızlıktan daha fazlasıdır; görmeyi bulanıklaştırabilir, ağrıya yol açabilir ve çalışma ile günlük yaşamı bozabilir. Özellikle yaşlı yetişkinler ve yoğun ekran kullanıcıları arasında daha yaygın hale geldikçe, birçok kişi çevrimiçi olarak açıklama ve kendine bakım önerileri arıyor. TikTok gibi platformlar göz kuruluğu hakkında sayısız kısa video barındırıyor; ancak bu platformların açık yapısı, tıbbi eğitimden bağımsız olarak herkesin içerik paylaşabilmesi anlamına geliyor. Zayıf veya abartılı tavsiyeler doğru tedaviyi geciktirebilir veya tehlikeli ev çözümlerini teşvik edebilir; bu yüzden videoların kalitesini ölçeklenebilir şekilde kontrol edebilecek güvenilir yöntemlere acilen ihtiyaç var.

Araştırmacıların yapay zeka video değerlendiricilerini nasıl test ettiği

Ekip, yeni ve tarafsız bir hesap kullanarak ve yalnızca özgün, eğitici klipleri tutmak için sıkı kurallar uygulayarak göz kuruluğu ile ilgili 185 Çince TikTok videosu topladı. İki göz uzmanı daha sonra her videoyu tıp eğitimi araştırmalarında sıkça kullanılan üç yerleşik araçla puanladı. Bir araç videoların ne kadar anlaşılır olduğunu ve izleyicilere hangi somut adımları atmaları gerektiğini ne kadar net önerdiğini değerlendirdi. İkinci araç genel kaliteyi zayıftan mükemmele kadar derecelendirdi. Üçüncü araç ise bilgilerin akıcılığı, doğruluğu, animasyon gibi ek öğelerin kullanımı ve içeriğin başlıkla ne kadar örtüştüğü gibi kaliteyi oluşturan yönlere böldü.

Video odaklı yapay zeka modellerini sınamak

Ardından araştırmacılar aynı videoları görsel bilgiyi kare kare yorumlayıp gördükleri hakkında soruları yanıtlayacak şekilde tasarlanmış üç gelişmiş "video büyük dil modeli"ne verdi. Her modelin doktorların puanlama araçlarını olabildiğince yakından taklit etmesi için ayrıntılı yönergeler hazırlandı. Temel soru, yapay zekanın ve insan uzmanların benzer puanlar verip vermeyeceğiydi. Bunu ölçmek için ekip, iki farklı "hakem"in yalnızca eğilimlerde değil, sayısal olarak ne kadar yakın olduğunu yakalayan standart bir güvenilirlik istatistiği kullandı.

Figure 2
Figure 2.

Yapay zekanın doğru ve yanlışları

İnsan değerlendirenler büyük ölçüde birbirleriyle uyum gösterdi; bu da puanlarının istikrarlı ve güvenilir olduğunu işaret ediyor. Buna karşılık, üç yapay zeka sistemi çoğu alanda uzmanlarla zayıf uyum sergiledi. Modellerin hiçbiri videonun genel kalitesi veya başlıkların içeriği ne kadar yansıttığı gibi ayrıntılı özelliklerde doktorlarla güvenilir şekilde eşleşemedi. Bir model genellikle uzmanlardan daha yüksek puan verirken, bir diğeri daha düşük puanlama eğilimindeydi ve yalnızca biri bazen ortalarda yer aldı. Nispeten olumlu tek alan, videoların izleyicilere ne yapmaları gerektiğini ne kadar net anlattığına dair "eylenebilirlik" oldu; burada iki model orta seviyede bir uyum sağladı, ancak yine de gerçek dünya kararları için gereken düzeyin altındaydı.

Neden bugünün yapay zekası yetersiz kalıyor

Yazarlar bu uçurumun birkaç nedeni olduğunu öne sürüyor. Test edilen yapay zeka sistemleri büyük ölçüde günlük sahneler ve genel video görevleri üzerinde eğitilmişti, özenle yapılandırılmış sağlık eğitimi değil. Birçok bilim videosu dramatik hareketli görüntülerden ziyade konuşulan açıklamalara, altyazılara, grafiklere ve metaforlara dayanıyor; oysa bu çalışmadaki modeller sadece görsel kareleri analiz etti ve insanların alaka ve doğruluğu değerlendirmek için kullandığı sesi dinlama ya da başlık ve diğer betimleyici bilgileri okuma yapmadı. Sonuç olarak, özellikle ana ayrıntılar gösterilmek yerine sözlü olarak aktarıldığında, anlamın büyük bölümü yapay zekaya hiç ulaşmadı. Çin dilindeki sağlık eğitiminde yaygın olan mecazi dil de sözleri kelimesi kelimesine yorumlayan sistemleri şaşırtabilir.

Bu hastalar ve platformlar için ne anlama geliyor

Bu çalışma hazır bir güvenlik ağı değil, erken bir yol haritası sunuyor. Sağlık bilgisi için tanıdık kalite kontrol listelerinin videoları izleyen yapay zeka modellerine talimat olarak çevrilebileceğini gösteriyor. Aynı zamanda mevcut genel amaçlı sistemlerin tıbbi videoları derecelendirmek veya insan denetimi olmadan yanlış bilgiyi polislemek için henüz güvenilir olmadığı da açık. Değerlendirme çerçevesi ve notlanmış video veri setini yayınlayarak yazarlar, görselleri, sesi ve ek bağlamı birleştirebilen ve hastalıklar ve diller arasında çalışabilecek daha iyi, daha uzmanlaşmış modelleri teşvik etmeyi umuyor. Şimdilik izleyiciler kısa sağlık videolarını tıbbi tavsiye değil, başlangıç noktası olarak görmeye devam etmeli ve platformlar güvenilir bilgi sağlamak için yalnızca yapay zekaya güvenmemeli.

Atıf: Zhou, S., Huang, M., Wei, J. et al. Benchmark evaluation of video large language models in quality assessment of science popularization videos for dry eye. Sci Rep 16, 8756 (2026). https://doi.org/10.1038/s41598-026-39444-0

Anahtar kelimeler: göz kuruluğu hastalığı, sağlık videoları, yapay zeka, yanlış bilgi, TikTok