Clear Sky Science · tr
Büyük ölçekli sağlık gözetim verilerine lojistik regresyonu uydurmak için böl ve yeniden birleştir yaklaşımları: BRFSS'te diyabet risk tahminine uygulama
Neden büyük sağlık anketleri diyabet için önemli
Diyabet her yıl daha fazla kişiyi etkiliyor, ancak sağlık sistemleri kimlerin risk altında olduğunu erken aşamada tespit etmekte zorlanıyor. Devletler milyonlarca yetişkini kapsayan büyük sağlık anketleri topluyor, ancak bu devasa dosyalar sıradan bilgisayarlarda analiz edilmesi zor. Bu çalışma, verileri bölüp yeniden birleştirmenin akıllı bir yolunun bu hantal anketleri, süper bilgisayara ihtiyaç duymadan kimin diyabet geliştirme olasılığının yüksek olduğunu tahmin etmek için pratik araçlara dönüştürebileceğini gösteriyor.

Büyük veriyi lokma lokma parçalara ayırmak
Yazarlar, böl ve yeniden birleştir adını verdikleri bir tekniğe odaklanıyor; bu teknik, devasa bir veri kümesini dilimlenip sonra yeniden birleştirilebilen bir ekmek somunu gibi ele alıyor. Tüm veriler üzerinde tek bir devasa istatistiksel model çalıştırmak yerine, veriyi daha küçük parçalara ayırıyorlar, aynı tahmin modelini her parçada ayrı ayrı uyarlıyorlar ve sonra sonuçları ilkelerine uygun bir şekilde birleştiriyorlar. Temel fikir, her veri diliminin diyabet ile risk faktörleri arasındaki ilişki hakkında bilgi taşıması ve bu parçaların her birinin ne kadar bilgi içerdiğini yansıtan matematiksel ağırlıklarla birleştirilebilmesi.
Yöntemi zorlu bir teste tabi tutmak
Bu böl ve birleştir stratejisinin güvenilir olup olmadığını görmek için ekip önce sentetik verilerle büyük bir bilgisayar deneyi yaptı. Beş milyon sanal hasta oluşturup bunu defalarca tekrarladılar; her birinin birkaç risk faktörü vardı ve diyabetle bilinen bir "gerçek" ilişkisi belirlendi. Ardından tam veri kümesinin geleneksel analizi ile böl ve yeniden birleştir yaklaşımını farklı dilim sayılarıyla karşılaştırdılar. Sonuçlar çarpıcıydı: bölünmüş yöntem neredeyse aynı yanıtları verdi, hatalar yalnızca dördüncü ondalık basamakta farklılık gösterdi; hesaplama süresini yaklaşık yarıya indirirken bellek gereksinimlerini neredeyse yüzde doksanlara varan oranlarda azalttı.

Yöntemi gerçek Amerikalılar üzerinde test etmek
Ardından araştırmacılar, sağlık alışkanlıkları ve durumlarını izleyen uzun soluklu bir ABD telefon anketi olan Davranışsal Risk Faktörü Gözetim Sistemi (BRFSS) verisine döndü. 2014–2024 yılları arasındaki 40 yaş ve üzeri yetişkinlere ait verileri çektiler; sonuçta yaklaşık 2,5 milyon kişi ve yaş, vücut ağırlığı, egzersiz, sigara, gelir ve kendi değerlendirdiği sağlık gibi 16 faktöre ilişkin bilgiler elde edildi. Verileri dikkatle temizledikten ve kişilerin sırasını karıştırdıktan sonra anketi yönetilebilir düzinelerce parçaya ayırdılar, her parçaya diyabet risk modelini uyarladılar ve sonuçları yeniden birleştirdiler. Ayrıca cevapların eşleşip eşleşmediğini görmek için tüm veriyi aynı anda kullanan iki standart yöntemi de çalıştırdılar.
Veriler diyabet riski hakkında ne söylüyor
Böl ve yeniden birleştir sonuçları geleneksel analizlerle neredeyse mükemmel şekilde örtüştü ve bu kestirmenin bilimi çarpıtmadığını doğruladı. Model iyi bilinen desenleri yeniden üretti: diyabet olasılıkları yaşla birlikte keskin biçimde artıyor ve obez bireylerde normal kilodakilere göre birkaç kat daha yüksek. Genel sağlık durumunu adil veya kötü bildirenler, egzersiz yapmayanlar veya şu anda sigara içenlerin de olasılıkları daha yüksekti. Buna karşılık, daha yüksek gelir ve daha fazla eğitim yılı ağırlık ve alışkanlıklar hesaba katıldıktan sonra bile daha düşük olasılıkla ilişkilendi; bu durum sosyal koşulların rolüne işaret ediyor. Anketteki bazı kronik hastalıkların diyabetle ters yönlü ilişkiler göstermesi ise yazarların, bunun gerçek bir korunma değil, tek seferlik bir kesitte hayatta kalma ve ölçüm tuhaflıklarına bağladıkları bir durum olduğuna işaret etti.
Günlük sağlık kararları için anlamı
Uzman olmayanlar için ana mesaj, mevcut ulusal sağlık anketlerinin sıradan bilgisayarlarla güvenilir diyabet risk hesaplayıcılarına dönüştürülebileceğidir. Böl ve yeniden birleştir stratejisi, geleneksel yöntemlerin istatistiksel kalitesini korurken milyonlarca kayıtla çalışmayı mümkün kılıyor. Bu, sınırlı kaynaklara sahip halk sağlığı kurumları ve araştırmacıların kimin en çok risk altında olduğunu izlemeyi, önleme programlarını özellikle obeziteye sahip yaşlı yetişkinler ve daha düşük gelire yönelik hedeflemeyi ve yeni anket yılları eklendikçe bu bulguları güncellemeyi kolaylaştırır. Yöntem diyabeti tedavi etmez, ancak topluma hastalığı önleme ve yönetmede verilerini daha akıllıca kullanma imkanı sağlar.
Atıf: Nayem, M.M.H., Biswas, S.C. Divide and recombine approaches for fitting logistic regression to large-scale health surveillance data: application to diabetes risk prediction in BRFSS. Sci Rep 16, 15980 (2026). https://doi.org/10.1038/s41598-026-46927-7
Anahtar kelimeler: diyabet riski, sağlık büyük veri, lojistik regresyon, BRFSS anketi, böl ve yeniden birleştir