Clear Sky Science · tr

Arapça sahte haberi tespit etmek için sınıf ağırlıklandırmalı sinir ağları ve dönüştürücü gömme vektörleri kullanan algoritmik bir sistem

2026-04-13 · Dizine geri dön

Çevrimiçi yanlış hikâyeleri tespit etmek neden önemli

Bugünün sürekli bağlı dünyasında, Arapça dramatiğe kaçmış bir başlık, bilinmeyen bir Facebook sayfasından milyonlarca telefona dakikalar içinde ulaşabilir. Bu hikâyelerin bazıları halkı kışkırtabilecek, seçimleri çarpıtabilecek veya kurumlara güveni zedeleyebilecek şekilde ustaca kurgulanmış sahtelerdir. Ancak sahte haberleri tespit etmek için geliştirilen otomatik araçların çoğu İngilizce üzerine kurulmuştur. Bu çalışma, insan doğrulayıcı düzeyine yaklaşan bir doğrulukla yanıltıcı Arapça haberleri işaretleyebilen verimli bir sistem tasarlayarak ve test ederek bu boşluğu kapatmayı amaçlıyor.

Arapça haberlerin gerçekçi bir resmini oluşturmak

Çevrimiçi bilginin dağınık gerçekliğini yansıtmak için araştırmacılar öncelikle 2015 ile 2025 arasında yayımlanmış karışık bir koleksiyon olan 7.474 Arapça haber metnini bir araya getirdiler. Metinler güvenilir haber odalarından, doğrulanmamış blog ve sosyal medya gönderilerinden ile iyi bilinen İngilizce sahte haber veri kümelerinden çevrilmiş örneklerden geldi. Her öğe resmi kaynaklar ve Arapça doğrulama platformları ile dikkatli çapraz kontrol yapılarak gerçek veya sahte olarak etiketlendi. Bir alt küme üç uzman tarafından çift kontrol edildi ve güçlü uzlaşmaları etiketlerin güvenilir olduğunu gösterdi. Nihai veri kümesi, sahte hikâyelerin gerçek haberlere göre daha az olduğunu gösteren sınıf dengesizliğini yansıtıyor; bu durum genellikle otomatik algılayıcıları yanıltır.

Makinelere Arapçayı gerçekten okutmaktı

Basit kelime sayımlarına güvenmek yerine ekip, bağlamdan anlam çıkarabilen modern bir dil modeli ailesi olan Dönüştürücülere (Transformers) yöneldi. Modern Standart Arapça üzerinde özel olarak eğitilmiş CAMeLBERT olarak bilinen bir Arapça modelini sofistike bir okuyucu olarak kullandılar. Her makale, emojileri, bağlantıları ve gürültülü karakterleri temizlerken Arapça için önemli dilsel nüansları koruyan özel bir ön işleme hattından geçirildi. CAMeLBERT ardından her temizlenmiş makaleyi anlamın, üslubun ve yapının ince tonlarını yakalayan yoğun sayısal bir parmak izine dönüştürdü. Bu parmak izleri, sahte ile gerçek haberleri ayırt eden kalıpları öğrenen kompakt bir derin sinir ağına aktarıldı.

Gerçek ve sahte arasındaki dengesizliği düzeltmek

Ana zorluk, veri kümesinde gerçek haberlerin sahte olanlardan daha fazla olmasıydı; tıpkı günlük hayatta olduğu gibi. Kontrol edilmezse model güvenli oynamaya eğilim gösterir ve çoğu hikâyeyi gerçek olarak sınıflandırarak tehlikeli sahte haberleri kaçırır. Daha önceki birçok çalışma bunun üstesinden nadir sahte örnekleri çoğaltarak, sentetik örnekler üreterek veya bazı gerçek makaleleri elden çıkararak gelmeye çalıştı; ancak bu numaralar gürültü ekleyebilir veya yararlı bilgileri yok sayabilir. Bunun yerine bu çalışma veri üzerinde değişiklik yapmadan algoritma düzeyinde bir çözüm olan sınıf ağırlıklandırmaya odaklandı. Eğitim sırasında sahte makalelerde yapılan hatalar, gerçek olanlara yapılan hatalardan modele göre daha “maliyetli” hale getirildi. Bu, veriyi değiştirmeden sinir ağını azınlıkta kalan sahte sınıfa ekstra dikkat etmeye ve doğru ile yanlış hikâyeler arasında daha dengeli bir sınır çizmeye iter.

Sistemi teste sokmak

Araştırmacılar birkaç yaklaşımı karşılaştırdı: kelime sayımı özellikleri kullanan geleneksel makine öğrenmesi modelleri, farklı Arapça Dönüştürücü modelleri tarafından beslenen aynı sinir ağı ve çeşitli dengeleme stratejileriyle birleştirilmiş en iyi Dönüştürücü. CAMeLBERT, AraBERT, MARBERTv2 ve AraELECTRA gibi alternatifleri geride bırakarak Arapça Dönüştürücüler arasında en güçlü omurga olarak öne çıktı. Sınıf ağırlıklandırmayla eşleştirildiğinde, CAMeLBERT tabanlı sistem Arapça haberleri yaklaşık %95,5 doğruluk ve yaklaşık %96,2 F1‑skor (kesinlik ve hatırlamanın dengesi) ile doğru sınıflandırdı. Aynı derecede önemli olarak, ayarlı sistem en endişe verici hatayı—sahte hikâyelerin yanlışlıkla gerçek kabul edilmesini—keskin şekilde azalttı. “Kara kutuyu” açmak için ekip ayrıca hangi dilsel ipuçları ve modelin içsel temsillerindeki kalıpların bir makaleyi sahteye veya gerçeğe ittiğini ortaya koyan modern açıklama araçları (LIME ve SHAP) da uyguladı.

Günlük okurlar için bunun anlamı

Bir sıradan okuyucunun bakış açısından, bu çalışma makinelerin Arapça haberleri şaşırtıcı derecede nüanslı bir şekilde okuyacak şekilde eğitilebileceğini, uydurma gönderileri genellikle profesyonel haberden ayıran ince üslup ve bağlamsal ipuçlarını yakalayabileceğini gösteriyor. Modern Standart Arapça'ya uygun bir dil modelini adil‑farkındalıklı bir eğitim stratejisiyle birleştirerek yazarlar, doğruluklu ve nispeten hafif‑ağırlıklı bir algılayıcı sunuyor—doğrulama platformlarına, haber odalarına ve sosyal medya izleme araçlarına entegrasyona uygun. İnsan yargısının yerini almasa da, bu sistem otomatik Arapça doğrulama için sağlam bir temel sunuyor; zararlı yanlış bilgilerin yayılmasını yavaşlatmaya ve Arapça konuşan dünyada daha sağlıklı bir bilgi ortamını desteklemeye yardımcı olabilir.

Atıf: Saad, M., Abdelrazek, S. & Abdelmaksoud, I.R. An algorithmic system for arabic fake news detection using neural networks and transformer embeddings with class weighting. Sci Rep 16, 12226 (2026). https://doi.org/10.1038/s41598-026-45653-4

Anahtar kelimeler: Arapça sahte haber, dönüştürücü modeller, sinir ağları, sınıf dengesizliği, doğrulama sistemleri