Clear Sky Science · tr

Geliştirilen düşmanca ağlar ve hiperparametreyle optimize edilmiş XGBoost ile geliştirilmiş kalp hastalığı tahmini

· Dizine geri dön

Neden erken kalp uyarıları önemli

Kalp hastalığı dünya çapında en çok can alan neden olmaya devam ediyor, ancak zararın büyük çoğunluğu yıllar içinde sessizce birikir. Hekimler zaten yaş ve kan basıncından uyku ve egzersiz alışkanlıklarına kadar büyük miktarda sağlık bilgisi topluyor — ancak bu dağınık, kusurlu verileri güvenilir erken uyarılara dönüştürmek zordur. Bu makale, GAN-XO adını taşıyan yeni bir bilgisayar tabanlı yaklaşımı sunuyor; bu yöntem büyük sağlık anketlerini tarayıp kimlerin kalp hastalığı açısından yüksek risk taşıdığını olağanüstü bir doğrulukla belirlemeye yönelik ve kararlarını klinikler için daha açık ve güvenilir kılmayı amaçlıyor.

Figure 1
Figure 1.

Dağınık sağlık verisini işe yarar hale getirmek

Araştırmacılar iki büyük veri kümesine odaklandı: 300.000’den fazla yetişkini kapsayan büyük bir ABD anketi ve uzun soluklu Framingham Kalp Çalışması. Bu derlemeler yaş, cinsiyet ve sigara gibi basit bilgileri beden kitle indeksi, kan basıncı, kan şekeri ve kendi bildirdikleri fiziksel/ruhsal sağlık gibi klinik ölçümlerle karıştırıyor. Temel zorluklardan biri bu tür veri kümlerindeki kişilerin yalnızca çok küçük bir kısmının gerçekten kalp hastalığına sahip olması. Standart bilgisayar modelleri çoğunluğun sağlıklı olduğu “kolay” deseni öğrenme eğiliminde olup, hasta olan daha küçük ama kritik grubu göz ardı edebiliyor. Buna ek olarak, anketler ve tıbbi kayıtlar hatalar, uç değerler ve eksik parçalar içeriyor; bu da en iyi algoritmaları bile şaşırtabiliyor.

Makineye gerçekçi hastalar hayal etmeyi öğretmek

Dengesizlik sorununu ele almak için ekip, Üretken Düşmanca Ağlar (GAN) olarak bilinen bir yapay zeka türüne yöneldi. Mevcut kayıtları basitçe kopyalamak veya karıştırmak yerine GAN, kalp hastalığı olanlara benzeyen tamamen yeni, gerçekçi “sentetik” hastalar yaratmayı öğrenir. Özel tasarım olan koşullu GAN, hangi sınıfı taklit etmesi gerektiğini (hastalık veya hastalık yok) bilerek daha inandırıcı yüksek riskli örnekler üretebiliyor. Yazarlar, bu sentetik hastaların yaş ile kan basıncı veya diyabet ile kan şekeri arasındaki bağ gibi önemli ilişkileri koruduğunu, imkânsız kombinasyonlar uydurmadığını kontrol ettiler. Bu adım, klinisyenlerden daha fazla gerçek örnek toplamalarını istemeden tahmin modelinin kullanabileceği veriyi büyük ölçüde zenginleştirdi.

Tahmin yapmadan önce kötü veriyi temizlemek

Bununla birlikte, sentetik veri biyolojik olarak imkânsız vücut ağırlıkları veya çelişkili sağlık profilleri gibi tuhaflıklar da getirebilir. Gerçek anketler ve hastane kayıtları benzer sorunlardan muzdarip. Bu nedenle GAN-XO çerçevesi olağanüstü sıkı bir veri temizleme aşaması ekliyor. Z-skoru ve çeyreklik açıklık aralığı gibi iki standart istatistiksel araç kullanılarak, beden kitle indeksi, bir ay içindeki kötü sağlık günleri, uyku süresi, kan basıncı ve glikoz seviyeleri gibi ölçümler için tıbben makul aralıkların çok dışında kalan değerler işaretlenip çıkarılıyor. Kritik olarak, yazarlar bu işlemin kalp hastası olan kişileri tercihli olarak silmediğini kontrol etti; çıkarılan hasta ve sağlıklı bireylerin oranı orijinal veridekiyle neredeyse aynı kaldı. Sonuç, eğitilecek daha küçük ama çok daha güvenilir bir kayıt koleksiyonu oldu.

Figure 2
Figure 2.

Akıllı veriyi güçlü bir tahminciyle birleştirmek

Veriler dengelenip temizlendikten sonra yazarlar son tahmini yapmak için XGBoost kullandı; bu yöntem, karar ağaçlarından oluşan bir ansambl inşa eden popüler bir makine öğrenmesi tekniğidir. Çok sayıda ayarını elle ayarlamak yerine performansı iyileştiren parametre kombinasyonlarını deneyen otomatik bir arama sistemi olan Optuna’ya güvendiler. Düz XGBoost, daha basit dengeleme yöntemleriyle XGBoost ve uç değer çıkarma ile/veya olmadan tam GAN-XO hattı olmak üzere birkaç versiyon karşılaştırıldı. Büyük ABD anketinde eksiksiz GAN-XO sistemi yaklaşık %96,6 doğruluk ve benzer şekilde yüksek bir F1-skoruna ulaştı ve önceki yayımlanmış yöntemleri geride bıraktı. Aynı derecede önemli olarak, uç değerlerin çıkarılması eğitim ve test sonuçları arasındaki farkı daralttı; bu da modelin gürültüyü ezberlemek yerine gerçek desenleri öğrendiğini gösterdi.

Siyah kutu tahminlerini daha anlaşılır kılmak

Tıbbi kararların açıklanabilir olması gerektiğinden, yazarlar modelin sonuçlara nasıl ulaştığını da inceledi. Hem hasta grupları hem de bireysel vakalar için tahminleri “kalp hastalığı” veya “kalp hastalığı yok” yönünde en çok iten faktörleri göstermek amacıyla SHAP ve LIME adlı iki popüler yorumlama aracını kullandılar. Uç değerler içeren verilerle eğitildiklerinde modelin açıklamaları kararsızdı ve bazen tuhaf özellik kombinasyonlarına dayanıyordu. Temizlemeden sonra yaş, genel sağlık, vücut ağırlığı, sigara ve önceki inme veya diyabet gibi tanıdık risk faktörlerinin önemi daha net ve tutarlı hale geldi. Bu, modelin akıl yürütmesinin sadece istatistiksel tuhaflıklar değil klinik anlayışla daha iyi örtüştüğüne dair güçlü bir izlenim verdi.

Bu hastalar ve hekimler için ne anlama geliyor

Basitçe söylemek gerekirse, bu çalışma daha iyi kalp hastalığı tahmininin sofistike algoritmalar kadar dikkatli veri işleme üzerine de dayandığını gösteriyor. Bir AI sistemine önce daha fazla gerçekçi yüksek riskli hasta “hayal etmeyi” öğretip, sonra ihtimal dışı kayıtları agresifçe filtreleyip ve nihayet güçlü bir tahmin motorunu ayarlayarak GAN-XO çerçevesi hem yüksek doğruluk hem de daha yorumlanabilir sonuçlar sunuyor. Hastalar için bu, rutin sağlık bilgilerine dayalı daha erken ve daha güvenilir uyarılar anlamına gelebilir; hekimler içinse seçimleri gerçek tıbbi mantığı daha iyi yansıtan bir araç sunuyor. Yazarlar, veri kalitesi kontrolünün, akıllı sentezin ve şeffaf tahminin bu karışımının sağlık hizmetlerinde gelecekteki AI sistemleri için umut verici bir yol gösterici olduğunu savunuyor.

Atıf: Begum, S.S., Swamy, A., Dhanka, S. et al. Generative adversarial networks and hyperparameter-optimized XGBoost for enhanced heart disease prediction. Sci Rep 16, 11326 (2026). https://doi.org/10.1038/s41598-026-40322-y

Anahtar kelimeler: kalp hastalığı tahmini, tıbbi makine öğrenmesi, sentetik sağlık verisi, veri kalitesi ve aykırılar, XGBoost modelleme