Clear Sky Science · tr
Dengeli veri setlerinin öneminin özellik seçimi ve topluluk yöntemleriyle birlikte kalp hastalığı sınıflandırmasında ayırt edici makine öğrenimi teknikleri kullanılarak karşılaştırmalı analizi
Günlük hayatın kalpleri için neden önemli
Kalp hastalığı hâlâ dünyanın en büyük öldürücüsü; ancak sağlık anketleri dolduran veya kliniklere giden çoğu insan, verdikleri yanıtların erken uyarılara dönüştüğünü nadiren görüyor. Bu çalışma basit ama güçlü bir soruyu soruyor: büyük sağlık veri setlerini temizleyip yeniden dengeler, en belirleyici risk faktörlerini dikkatle seçer ve ardından doğru türde bilgisayar modelini uygularsak, kimlerin kalp sorunları geliştirme olasılığı olduğunu tespit etmede anlamlı ölçüde daha başarılı olabilir miyiz?

Düzensiz sağlık verilerini işe yarar hale getirmek
Araştırmacılar, binlerce yetişkinin sağlık ve alışkanlıkları hakkında kendi bildirimlerini içeren ABD Davranışsal Risk Faktörü İzleme Sistemi’nden (BRFSS) büyük bir halka açık veri setiyle çalıştı. Her kişi; yaş, sigara ve alkol durumu, uyku süresi, fiziksel aktivite, diyabet, böbrek hastalığı ve genel öz-değerlendirilmiş sağlık gibi 17 sıradan özellikle ve ayrıca kalp hastalığına sahip olup olmadığı bilgisiyle tanımlanıyordu. Gerçek dünya tıbbi kayıtlarında olduğu gibi veriler düzensizdi: bazı değerler eksikti, bazı kişiler açık uç değerler gösteriyordu ve kalp hastalığını bildirenlerin sayısı olmayanlara göre çok daha azdı. Ekip önce verileri temizledi, eksik değerleri doldurdu, uç değerleri kaldırdı ve ardından kayıtları bilgisayar modellerinin eğitimi ve test edilmesi için ayrı gruplara ayırdı.
Nadir vakaların sorununu çözmek
Büyük engellerden biri dengesizlikti: kalp hastalığı olmayanlar, olanlardan çok daha fazla sayıda idi. Böyle durumlarda bir model çoğunlukla “hastalık yok” diyerek doğru gibi görünebilir, ancak birçok gerçek vakayı kaçırır. Bunu dengelemek için yazarlar, eğitim verilerinde nadir görülen "kalp hastalığı" vakalarına dair gerçekçi sentetik örnekler oluşturan aşırı örnekleme (oversampling) adı verilen bir teknik kullandı; böylece pozitif ve negatif sonuçların sayıları yaklaşık olarak eşitlendi. Bu dengeleme adımı, birkaç modelin kalp hastalığı olan kişileri bulma yeteneğini geliştirdi, ancak tek başına tahminleri güvenilir şekilde keskin veya ayırt edici hale getirmedi.

En anlatıcı risk faktörlerini seçmek
Çalışma daha sonra bir kişi hakkında hangi bilgilerin tahmin için en çok önem taşıdığını sordu. Yazarlar, her özelliği kalp hastalığıyla ne kadar güçlü ilişkilendiğine göre puanlayan üç istatistiksel araç ailesini test ettiler. Bu yöntemleri tek başına ve sekiz farklı birleşim ve kesişimde değerlendirdiler; esasen "hangi yöntem bir özelliği işaretliyorsa onu tutarsak ne olur?" ile "sadece tüm yöntemlerin üzerinde anlaştığı özellikleri tutarsak ne olur?" sorularını sordular. Yaş aralıkları, öz-değerlendirilen genel sağlık, yürüme güçlüğü, inme öyküsü, diyabet, böbrek hastalığı, vücut kitle indeksi ve bazı yaşam tarzı göstergeleri, yöntemler arasında tekrar tekrar en bilgilendirici sinyaller olarak öne çıktı.
Makine öğrenimi modellerini karşılaştırmak
Dengelenmiş veriler ve özenle seçilmiş özelliklerle ekip yedi popüler makine öğrenimi yaklaşımını karşılaştırdı: lojistik regresyon, karar ağaçları, rastgele ormanlar, naïve Bayes, destek vektör makineleri, yapay sinir ağları ve k-en yakın komşu. Bunları genel doğruluk, pozitif tahminlerin ne sıklıkla doğru olduğu (precision), gerçek kalp hastalığı vakalarının ne kadarının yakalandığı (recall) ve modellerin hastalıklı ile sağlıklı kişileri tüm eşikler boyunca ne kadar iyi ayırdığı (ROC–AUC skoru) gibi yaygın ölçütlerle değerlendirdiler. Özellik seçimi uygulandığında özellikle ANOVA tabanlı yöntemlerin sürece dahil olması hâlinde rastgele ormanlar ve karar ağaçları tutarlı şekilde öne çıktı. En iyi durumda bir rastgele orman yaklaşık %92 doğruluk, %93 recall ve 0.92 AUC’ye ulaştı ve rakiplerinin açık ara önünde yer aldı.
Modelleri birleştirmek ne zaman yardımcı olur—ve ne zaman olmaz
Yazarlar ayrıca modelin birçok hafifçe farklı versiyonunu oluşturup oylarını birleştiren bir yöntem olan "bagging"i de inceledi. Bu topluluk hilesi, karar ağaçları gibi istikrarsız modellerde genellikle kararlılığı artırmak için kullanılır. Bu çalışmada bagging, birkaç yüksek varyanslı model için küçük kazanımlar sağladı ancak özellikle yukarıda açıklanan dikkatli özellik seçimi olmadan kullanıldığında kalp hastalığını sağlıklılardan ayırma yeteneklerini çarpıcı biçimde iyileştirmedi. Hatta yalnızca bagging’e güvenmek bazen önemli pozitif vakaların gözden kaçmasına yol açtı ki bu tıbbi bir ortamda kabul edilemez olurdu.
Hastalar ve doktorlar için ne anlama geliyor
Bir uzman olmayan için temel mesaj, verileri nasıl hazırlayıp şekillendirdiğimizin, tahmin modelinin ne kadar sofistike olduğundan daha fazla önemi olabileceğidir. Düzensiz, gürültülü sağlık kayıtlarına karmaşık bir algoritma uygulamak tek başına yeterli değildir. Bu çalışma, verileri dengelemenin ve anlamlı risk faktörlerinden oluşan odaklanmış bir küme dikkatle seçmenin—özellikle ANOVA tabanlı yöntemlerin vurguladığı özelliklerin—rastgele ormanlar ve karar ağaçları gibi görece basit modellerin çok daha güvenilir kalp hastalığı tahminleri yapmasını sağladığını gösteriyor. Bu sonuçların başka popülasyonlarda ve gerçek klinik ortamlarda doğrulanması gerekse de, erken uyarı araçları geliştirmek için pratik reçetelere işaret ediyor; bu araçlar bir gün doktorların risk altındaki hastaları daha erken tespit etmelerine ve önleyici çabaları daha etkili şekilde kişiselleştirmelerine yardımcı olabilir.
Atıf: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4
Anahtar kelimeler: kalp hastalığı tahmini, makine öğrenimi, özellik seçimi, sağlık verilerinin dengelenmesi, rastgele orman modelleri