Clear Sky Science · pl

Sieci generatywne przeciwstawne i XGBoost z optymalizacją hiperparametrów dla lepszej predykcji chorób serca

2026-02-27 · Powrót do spisu

Dlaczego wczesne ostrzeżenia dotyczące serca mają znaczenie

Choroby serca pozostają główną przyczyną zgonów na świecie, tymczasem większość ich szkód narasta cicho przez lata. Lekarze już zbierają ogromne ilości informacji — od wieku i ciśnienia krwi po nawyki snu i aktywności fizycznej — ale przekształcenie tych chaotycznych, niedoskonałych danych w wiarygodne wczesne ostrzeżenia jest trudne. W artykule przedstawiono nowe podejście komputerowe, nazwane GAN-XO, zaprojektowane do przeszukiwania dużych badań zdrowotnych i wskazywania osób o wysokim ryzyku chorób serca z zadziwiającą dokładnością, a jednocześnie do zwiększania przejrzystości i zaufania do decyzji podejmowanych dla klinicystów.

Przekształcanie nieuporządkowanych danych zdrowotnych w coś użytecznego

Badacze skupili się na dwóch głównych zbiorach danych: masywnym amerykańskim badaniu obejmującym ponad 300 000 dorosłych oraz wieloletnim Badaniu Framingham dotyczącego serca. Zbiory te łączą proste informacje, takie jak wiek, płeć i palenie, z miernikami klinicznymi, takimi jak wskaźnik masy ciała, ciśnienie krwi, poziom cukru oraz samoocenione zdrowie fizyczne i psychiczne. Centralnym wyzwaniem jest to, że tylko niewielka część osób w takich zbiorach rzeczywiście ma chorobę serca. Standardowe modele komputerowe mają tendencję do uczenia się „łatwego” wzorca — że większość ludzi jest zdrowa — i pomijają znacznie mniejszą, lecz kluczową grupę chorych. Dodatkowo ankiety i dokumentacja medyczna zawierają błędy, skrajne pomiary i braki danych, które mogą zmylić nawet najlepsze algorytmy.

Nauczanie maszyny wyobrażania sobie realistycznych pacjentów

Aby poradzić sobie z problemem niezrównoważenia klas, zespół sięgnął po rodzaj sztucznej inteligencji znany jako Generative Adversarial Network (GAN). Zamiast po prostu kopiować czy mieszać istniejące zapisy, GAN uczy się tworzyć całkowicie nowych, realistycznych „syntetycznych” pacjentów przypominających osoby z chorobą serca. Konkretna konstrukcja, tzw. warunkowy GAN, otrzymuje informację, którą klasę ma naśladować (choroba lub brak choroby), dzięki czemu może celowo generować bardziej wiarygodne przykłady wysokiego ryzyka. Autorzy sprawdzili, że ci syntetyczni pacjenci zachowują ważne zależności — takie jak związek między wiekiem a ciśnieniem krwi czy między cukrzycą a poziomem glukozy — zamiast wymyślać niemożliwe kombinacje. Ten etap znacznie wzbogacił dane dostępne dla modelu predykcyjnego bez konieczności proszenia klinicystów o zbieranie większej liczby rzeczywistych próbek.

Usuwanie złych danych przed tworzeniem prognoz

Jednak dane syntetyczne mogą też wprowadzać dziwactwa, takie jak biologicznie niemożliwe masy ciała czy sprzeczne profile zdrowotne. Podobne problemy występują w rzeczywistych ankietach i dokumentacji szpitalnej. Ramy GAN-XO wprowadzają więc wyjątkowo rygorystyczny etap oczyszczania danych. Przy użyciu dwóch standardowych narzędzi statystycznych — z-score oraz zakresu międzykwartylowego — oznaczono i usunięto wartości znacznie odbiegające od medycznie rozsądnych zakresów dla pomiarów takich jak wskaźnik masy ciała, dni złego samopoczucia w miesiącu, czas snu, ciśnienie krwi i poziom glukozy. Co istotne, autorzy sprawdzili, że ten proces nie usuwał w preferencyjny sposób osób z chorobą serca; odsetek usuniętych osób chorych i zdrowych pozostał prawie taki sam jak w danych pierwotnych. Wynikiem jest mniejszy, lecz znacznie bardziej godny zaufania zbiór rekordów, na którym można trenować model.

Łączenie inteligentnych danych z silnym predyktorem

Gdy dane zostały zrównoważone i oczyszczone, autorzy zastosowali XGBoost, popularną metodę uczenia maszynowego budującą zespół drzew decyzyjnych, aby dokonać ostatecznej predykcji. Zamiast ręcznie dopasowywać liczne ustawienia, skorzystali z Optuny, zautomatyzowanego systemu poszukiwania, który testuje różne kombinacje parametrów modelu i zachowuje te, które poprawiają wydajność. Porównano kilka wersji: zwykły XGBoost, XGBoost z prostszymi metodami balansowania oraz pełny pipeline GAN-XO z usuwaniem i bez usuwania odstających wartości. W dużym amerykańskim badaniu kompletny system GAN-XO osiągnął około 96,6% dokładności i podobnie wysoką wartość F1, przewyższając wcześniej opublikowane metody. Równie ważne było to, że usuwanie odstających wartości zmniejszyło różnicę między wynikami trenowania i testowania, co wskazuje, że model uczył się prawdziwych wzorców, zamiast zapamiętywać szum.

Uczynienie czarnych skrzynek bardziej zrozumiałymi

Ponieważ decyzje medyczne muszą być wyjaśnialne, autorzy zbadali także, jak model dochodzi do swoich wniosków. Użyli dwóch popularnych narzędzi interpretacyjnych, SHAP i LIME, aby pokazać, które czynniki najsilniej skłaniały predykcje ku „chorobie serca” lub „brakowi choroby serca”, zarówno dla grup pacjentów, jak i poszczególnych przypadków. Gdy model był trenowany na danych zawierających nadal odstające wartości, jego wyjaśnienia były niestabilne i czasem opierały się na dziwnych kombinacjach cech. Po oczyszczeniu znaczenie znanych czynników ryzyka — takich jak wiek, ogólny stan zdrowia, masa ciała, palenie czy wcześniejszy udar lub cukrzyca — stało się wyraźniejsze i bardziej spójne. To dało silniejsze przekonanie, że rozumowanie modelu odpowiada klinicznemu rozumieniu, a nie jedynie statystycznym anomaliom.

Co to oznacza dla pacjentów i lekarzy

Mówiąc prosto, badanie pokazuje, że lepsza predykcja chorób serca zależy tak samo od starannej obróbki danych, jak od zaawansowanych algorytmów. Najpierw ucząc system AI „wyobrażania” dodatkowych realistycznych pacjentów wysokiego ryzyka, potem agresywnie filtrując nieprawdopodobne rekordy, a na koniec strojąc potężny silnik predykcyjny, ramy GAN-XO dostarczają zarówno wysokiej dokładności, jak i bardziej interpretowalnych wyników. Dla pacjentów może to oznaczać wcześniejsze i bardziej niezawodne ostrzeżenia bazujące na rutynowych informacjach zdrowotnych; dla klinicystów to narzędzie, którego wybory lepiej odzwierciedlają rzeczywną logikę medyczną. Autorzy twierdzą, że to połączenie kontroli jakości danych, inteligentnej syntezy i przejrzystej predykcji stanowi obiecujący wzorzec dla przyszłych systemów AI w opiece zdrowotnej.

Cytowanie: Begum, S.S., Swamy, A., Dhanka, S. et al. Generative adversarial networks and hyperparameter-optimized XGBoost for enhanced heart disease prediction. Sci Rep 16, 11326 (2026). https://doi.org/10.1038/s41598-026-40322-y

Słowa kluczowe: predykcja chorób serca, medyczne uczenie maszynowe, syntetyczne dane zdrowotne, jakość danych i odstające wartości, modelowanie XGBoost