Clear Sky Science · pl

Znaczenie zrównoważonych zbiorów danych przy wyborze cech i metod zespołowych w klasyfikacji chorób serca za pomocą różnych technik uczenia maszynowego: analiza porównawcza

· Powrót do spisu

Dlaczego to ma znaczenie dla codziennych serc

Choroby serca nadal są największą przyczyną zgonów na świecie, a jednocześnie większość osób wypełniających ankiety zdrowotne lub odwiedzających poradnie nigdy nie widzi, żeby ich odpowiedzi stały się wczesnymi ostrzeżeniami. To badanie stawia proste, ale ważne pytanie: jeśli oczyścimy i wyrównamy duże zbiory danych zdrowotnych, starannie wybierzemy najbardziej wymowne czynniki ryzyka, a następnie zastosujemy odpowiedni typ modelu komputerowego, czy możemy znacznie lepiej wykrywać osoby zagrożone problemami sercowymi?

Figure 1
Figure 1.

Zmiana nieporządnych danych zdrowotnych w użyteczną wiedzę

Naukowcy pracowali na dużym publicznym zbiorze danych z amerykańskiego Behavioral Risk Factor Surveillance System, który zawiera samodzielnie zgłaszane informacje od tysięcy dorosłych o ich zdrowiu i nawykach. Każda osoba została opisana przez 17 codziennych cech, takich jak wiek, status palenia i spożywania alkoholu, długość snu, aktywność fizyczna, cukrzyca, choroba nerek oraz ogólna samoocena stanu zdrowia, wraz z informacją, czy ma chorobę serca. Jak w większości rzeczywistych dokumentacji medycznych, dane były nieuporządkowane: brakowało niektórych wartości, pojawiały się wyraźne odstępstwa, a osób zgłaszających chorobę serca było znacznie mniej niż zdrowych. Zespół najpierw oczyścił dane, uzupełnił brakujące wartości, usunął skrajne odstępstwa, a następnie podzielił rekordy na oddzielne zbiory do trenowania i testowania modeli komputerowych.

Rozwiązanie problemu rzadkich przypadków

Dużą przeszkodą była niezrównoważoność: osób bez choroby serca było znacznie więcej niż tych z chorobą. W takich sytuacjach model może wydawać się dokładny po prostu zgadując „brak choroby” większość czasu, przez co przegapia wiele prawdziwych przypadków. Aby temu przeciwdziałać, autorzy zastosowali technikę oversamplingu, która tworzy realistyczne syntetyczne przykłady rzadszych przypadków „choroby serca”, tak by dane treningowe zawierały mniej więcej równe liczby wyników pozytywnych i negatywnych. Ten krok wyrównywania poprawił zdolność kilku modeli do wykrywania osób z chorobą serca, lecz sam w sobie nie uczynił prognoz wystarczająco wyraźnymi ani dyskryminującymi.

Figure 2
Figure 2.

Wybór najbardziej wymownych czynników ryzyka

Badanie zastanawiało się następnie, które informacje o osobie mają największe znaczenie dla predykcji. Autorzy przetestowali trzy rodziny narzędzi statystycznych, które oceniają każdą cechę pod kątem siły związku z chorobą serca. Oceniali je samodzielnie oraz w ośmiu różnych związkach (sumach i częściach wspólnych), inaczej pytając: „A co jeśli zachowamy wszystko, co oznaczy którakolwiek metoda?” versus „A co jeśli zachowamy tylko cechy, co do których wszystkie metody się zgadzają?”. Przedziały wiekowe, samoocena ogólnego stanu zdrowia, trudności w chodzeniu, historia udaru, cukrzyca, choroba nerek, wskaźnik masy ciała oraz niektóre markery stylu życia wielokrotnie pojawiały się jako najbardziej informacyjne sygnały we wszystkich metodach.

Porównanie modeli uczenia maszynowego

Z wykorzystaniem zrównoważonych danych i starannie wybranych cech, zespół porównał siedem popularnych podejść uczenia maszynowego: regresję logistyczną, drzewa decyzyjne, lasy losowe, naiwny Bayes, maszyny wektorów nośnych, sztuczne sieci neuronowe oraz k-najbliższych sąsiadów. Oceniali je za pomocą powszechnych miar: ogólnej dokładności, jak często pozytywne przewidywania były poprawne (precyzja), ile prawdziwych przypadków choroby serca zostało wykrytych (czułość/recall) oraz jak dobrze modele oddzielały chorych od zdrowych dla wszystkich progów (miara ROC–AUC). Lasy losowe i drzewa decyzyjne konsekwentnie osiągały najlepsze wyniki po zastosowaniu selekcji cech, szczególnie gdy w procesie wyboru uczestniczyły metody oparte na ANOVA. W najlepszym ustawieniu las losowy osiągnął około 92% dokładności, 93% czułości i AUC 0,92, wyraźnie wyprzedzając konkurencję.

Kiedy łączenie modeli pomaga — a kiedy nie

Autorzy zbadali także „bagging”, sposób tworzenia wielu nieco odmiennych wersji modelu i łączenia ich głosów. Ten trik zespołowy jest często stosowany, by zmniejszyć niestabilność modeli takich jak drzewa decyzyjne. W badaniu bagging przyniósł niewielkie korzyści dla kilku modeli o dużej wariancji, ale nie poprawił dramatycznie ich zdolności do rozróżniania choroby serca od zdrowia, zwłaszcza gdy był używany bez opisanej wyżej starannej selekcji cech. W rzeczywistości poleganie wyłącznie na baggingu czasem powodowało pomijanie ważnych pozytywnych przypadków, co w warunkach medycznych byłoby nieakceptowalne.

Co to oznacza dla pacjentów i lekarzy

Dla laika kluczowe przesłanie jest takie, że sposób przygotowania i ukształtowania danych może mieć większe znaczenie niż stopień zaawansowania samego modelu predykcyjnego. Po prostu zastosowanie złożonego algorytmu do nierównych, zaszumionych zapisów zdrowotnych nie wystarczy. Praca pokazuje, że wyrównanie danych i staranny wybór skoncentrowanego zestawu znaczących czynników ryzyka — zwłaszcza tych wskazywanych przez metody oparte na ANOVA — pozwalają stosunkowo prostym modelom, takim jak lasy losowe i drzewa decyzyjne, tworzyć znacznie bardziej wiarygodne prognozy dotyczące chorób serca. Choć wyniki te wymagają potwierdzenia na innych populacjach i w rzeczywistych placówkach medycznych, wskazują praktyczne schematy budowy narzędzi wczesnego ostrzegania, które mogą kiedyś pomóc lekarzom wcześniej wykrywać pacjentów z ryzykiem i lepiej ukierunkowywać działania zapobiegawcze.

Cytowanie: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Słowa kluczowe: predykcja chorób serca, uczenie maszynowe, selekcja cech, wyrównywanie danych zdrowotnych, modele lasów losowych