Clear Sky Science · tr

Usmile olasılık değerlendirmesi, dengeli ve dengesiz veri kümeleri için ikili sınıflandırma modellerinin eşik gerektirmeyen sağlam değerlendirmesini sunar

· Dizine geri dön

Neden daha iyi model kontrolleri günlük kararlar için önemli

Tıbbi testlerden kredi skorlama uygulamalarına kadar bilgisayarlar sık sık evet‑hayır sorularına yanıt verir: Bu hastada kalp hastalığı var mı? Bu işlem dolandırıcılık mı olacak? Ancak bu modellerin ne kadar iyi olduğunu değerlendirmek için kullandığımız araçlar yanıltıcı olabilir, özellikle aranan durum nadir olduğunda. Bu makale, bu tür modelleri ayrı ayrı değerlendirerek—önemli nadir vakaları ne kadar iyi tespit ettiklerini ve yanlış alarmlardan ne kadar kaçındıklarını—yüksek riskli kararlar için daha net bir görüntü sunan yeni bir kontrol yöntemi tanıtıyor.

Figure 1
Figure 1.

Günümüzün tek sayılı karnelerinin sınırlamaları

Popüler ROC eğrisi ve bunun özet değeri olan eğri altı alan gibi çoğu mevcut model “karnesi” performansı tek bir sayıya indirger. Bu sayı, gerçekten durumu olan kişilerdeki (olaylar) ve olmayanlardaki (olay olmayanlar) başarıyı karıştırır. Tıbbi tanı veya dolandırıcılık tespiti gibi birçok gerçek sorun alanında nadir grup, tam da en çok önem verdiğimiz gruptur ve bu gruptaki hataların maliyeti yaygın gruptaki hatalardan çok daha yüksektir. Güçlü dengesizlik altında—olay olmayanların olaylardan kat kat fazla olduğu durumlarda—geleneksel ölçüler bir modelin çok iyi göründüğünü öne sürebilir, oysa model nadir ve kritik vakalarda kötü performans gösteriyor olabilir.

Model gücünün yeni “gülümseme şeklinde” görünümü

Yazarlar önceki U‑şekilli görselleştirme fikirlerini U‑smile Olasılık Değerlendirmesi adlı tam bir yönteme genişletiyor. Temelde, verilerin verilen bir model altında, faydalı bilgi içermeyen basit bir referans modele göre ne kadar daha olası olduğunu karşılaştıran göreli olasılık oranı adlı yeni bir puan var. Bu puan doğal olarak eşik gerektirmez: kullanıcıyı bir kesme değeri seçmeye zorlamak yerine ham tahmin olasılıklarını kullanır. Kritik olarak, puan olay ve olay olmayan gruplar için ayrı parçalara ayrılır. U‑şekilli bir grafikte, her grup için iyileşmeler renkli noktalarla gösterilir: derin, simetrik bir “gülümseme” modelin her iki gruba da fayda sağladığını; tek taraflı bir şekil ise yalnızca bir grubun fayda gördüğünü açığa çıkarır. Nokta boyutu etkilenen birey sayısını; çizgi stili ise iyileşmenin istatistiksel olarak güvenilir olup olmadığını gösterir.

Yöntemin dengeli ve çarpık verilerde nasıl davrandığı

Yaklaşımlarını test etmek için araştırmacılar zayıf ve güçlü sinyaller ile her on vakadan birinin olay olduğu güçlü dengesizlik gibi farklı gerçek dünya zorluklarını taklit eden çeşitli sentetik veri kümeleri oluşturdular. Ayrıca iyi bilinen bir kalp hastalığı veri kümesini de analiz ettiler. Her ayar için modelleri adım adım kurdular; her seferinde bir öngörücü ekleyerek ya geleneksel ROC‑tabanlı kuralları ya da yeni U‑smile kriterlerini kullandılar. Dengeli durumlarda tüm yöntemler benzer öngörücüleri seçti ve neredeyse aynı performansa ulaştı; bu, veri iyi davrandığında U‑smile’ın en az mevcut uygulamalar kadar iyi olduğunu gösteriyor. Gerçek farklar dengesizlik altında ortaya çıktı: orada U‑smile yönlendirmeli seçim, azınlık sınıfının tespitini ROC‑yönlendirmeli seçime kıyasla doğruluk‑geri çağırma alanında (precision‑recall area) %16’ya ve F1 skorunda %21’e kadar iyileştirdi; buna karşın çoğunluk sınıfı için performansı güçlü tuttu.

Figure 2
Figure 2.

Her bir öngörücünün gerçekten ne kattığını görmek

U‑smile grafikleri her modelleme adımından sonra çizilebildiğinden, aynı zamanda bir modelin nasıl büyüdüğünün görsel bir günlük kitabı işlevi görür. Dengesiz örneklerde erken öngörücüler çoğunlukla olay vakalarının tanınmasını iyileştirerek çarpık bir gülümseme verdi. Daha sonraki öngörücüler dengeyi yeniden sağladı, eğriyi derinleştirip simetrikleştirdi. Yöntemin ayrı versiyonları kasıtlı olarak ya olayları ya da olay olmayanları tercih edecek şekilde ayarlanabilir; bu, kullanıcıların modelleri belirli hedeflere göre uyarlamasına olanak tanır—örneğin nadir hastalık tespitini en üst düzeye çıkarmak ya da gereksiz alarmlardan kaçınmayı önceliklendiren bir sürüm kullanmak. Yazarlar yöntemi klasik lojistik regresyondan çok farklı çalışan rastgele orman modellerine de uyguladı ve aynı U‑şekilli desenlerin net içgörüler sağladığını buldu; bu, yaklaşımın birçok tür algoritma arasında işe yaradığını gösteriyor.

Gerçek dünya risk kararları için bunun anlamı

Basitçe söylemek gerekirse, çalışma şu soruyu sormanın daha net, daha dürüst bir yolunu sunuyor: “Bu model gerçekten kime yardım ediyor?” Tek bir övücü skor yerine, U‑smile Olasılık Değerlendirmesi bir bakışta bir modelin nadir ama önemli olayların tespitini gerçekten iyileştirip iyileştirmediğini, yaygın vakalara ne kadar fayda sağladığını ve hangi ekleyici öngörücülerin bu değişiklikleri yönlendirdiğini gösterir. Nadir bir olayın kaçırılmasının ara sıra yanlış alarm vermekten çok daha ciddi olabileceği tıp, spor, finans ve endüstriyel güvenlik gibi alanlarda, bu sınıf‑başına görünüm daha iyi model tasarımına ve risk hakkında daha şeffaf iletişime rehberlik edebilir.

Atıf: Więckowska, B., Guzik, P. Usmile likelihood evaluation provides robust threshold free assessment of binary classification models for balanced and imbalanced datasets. Sci Rep 16, 10000 (2026). https://doi.org/10.1038/s41598-026-40545-z

Anahtar kelimeler: ikili sınıflandırma, dengesiz veri, model değerlendirme, olasılık oranı, açıklanabilir makine öğrenimi