Clear Sky Science · nl

Belang van gebalanceerde datasets met kenmerkenselectie en ensemble-methoden bij hartziekteclassificatie met onderscheidende machine learning-technieken: een vergelijkende analyse

2026-04-07 · Terug naar het overzicht

Waarom dit ertoe doet voor alledaagse harten

Hartziekten zijn nog steeds de grootste doodsoorzaak wereldwijd, maar de meeste mensen die gezondheidsvragenlijsten invullen of een kliniek bezoeken zien hun antwoorden nooit omgezet worden in vroege waarschuwingen. Deze studie stelt een eenvoudige maar krachtige vraag: als we grote gezondheidsdatasets opschonen en opnieuw balanceren, zorgvuldig de meest sprekende risicofactoren kiezen en vervolgens het juiste type computermodel selecteren, kunnen we dan merkbaar beter voorspellen wie waarschijnlijk hartproblemen zal ontwikkelen?

Rommelige gezondheidsgegevens omzetten in iets bruikbaars

De onderzoekers werkten met een grote openbare dataset van het U.S. Behavioral Risk Factor Surveillance System, die zelfgerapporteerde informatie bevat van duizenden volwassenen over hun gezondheid en gewoonten. Elke persoon wordt beschreven met 17 alledaagse kenmerken zoals leeftijd, rook- en drinkgedrag, slaapduur, lichamelijke activiteit, diabetes, nieraandoening en algemeen zelfbeoordeelde gezondheid, samen met de vraag of ze hartziekte hebben. Net als de meeste real-world medische dossiers waren de gegevens rommelig: sommige waarden ontbraken, sommige mensen waren duidelijke uitschieters en veel minder mensen rapporteerden hartziekte dan niet. Het team maakte eerst de data schoon, vulde ontbrekende waarden in, verwijderde extreme uitschieters en splitste vervolgens de records in aparte groepen voor het trainen en testen van de computermodellen.

Het probleem van zeldzame gevallen oplossen

Een grote hindernis was onbalans: mensen zonder hartziekte waren veel talrijker dan mensen met hartziekte. In zulke situaties kan een model er accuraat uitzien door meestal “geen ziekte” te raden, terwijl het veel echte gevallen mist. Om dit tegen te gaan gebruikten de auteurs een techniek genaamd oversampling, die realistische synthetische voorbeelden van de zeldzamere “hartziekte”-gevallen creëert zodat de trainingsdata ruwweg gelijke aantallen positieve en negatieve uitkomsten bevatten. Deze balanceringsstap verbeterde het vermogen van meerdere modellen om mensen met hartziekte te vinden, maar op zichzelf maakte het de voorspellingen niet altijd scherp of onderscheidend genoeg.

De meest sprekende risicofactoren kiezen

De studie onderzocht vervolgens welke informatie over een persoon het belangrijkst is voor voorspelling. De auteurs testten drie families statistische hulpmiddelen die elk kenmerk scoren op hoe sterk het samenhangt met hartziekte. Ze evalueerden deze afzonderlijk en in acht verschillende unies en snijpunten, en stelden in wezen de vraag: “Wat als we alles behouden wat een methode aangeeft?” versus “Wat als we alleen de kenmerken behouden waar alle methoden het over eens zijn?” Leeftijdbereiken, zelfbeoordeelde algemene gezondheid, moeite met lopen, voorgeschiedenis van beroerte, diabetes, nieraandoening, body mass index en bepaalde leefstijlsignalen kwamen herhaaldelijk naar voren als de meest informatieve signalen over de methoden heen.

Machine learning-modellen tegenover elkaar zetten

Met gebalanceerde data en zorgvuldig gekozen kenmerken vergeleek het team zeven populaire machine learning-benaderingen: logistieke regressie, beslisbomen, random forests, naïeve Bayes, support vector machines, kunstmatige neurale netwerken en k-nearest neighbors. Ze beoordeelden ze met gangbare maatstaven: totale nauwkeurigheid, hoe vaak positieve voorspellingen correct waren (precisie), hoeveel echte hartziektevallen werden gevonden (recall) en hoe goed modellen zieke van niet-zieke personen scheidden over alle drempels heen (de ROC–AUC-score). Random forests en beslisbomen kwamen consequent bovenaan te staan zodra kenmerkenselectie werd toegepast, vooral wanneer ANOVA-gebaseerde methoden deel uitmaakten van het selectieproces. In de beste configuratie behaalde een random forest ongeveer 92% nauwkeurigheid, 93% recall en een AUC van 0,92, duidelijk vooroplopend op de concurrenten.

Wanneer combineren van modellen helpt — en wanneer niet

De auteurs onderzochten ook “bagging”, een manier om veel licht verschillende versies van een model te creëren en vervolgens hun stemmen te combineren. Deze ensemble-truc wordt vaak gebruikt om instabiliteit in modellen zoals beslisbomen te verminderen. In deze studie bracht bagging kleine winst voor een paar modellen met hoge variantie maar verbeterde het hun vermogen om hartziekte van gezonde gevallen te onderscheiden niet dramatisch, vooral wanneer het zonder de zorgvuldige kenmerkenselectie werd gebruikt die hierboven werd beschreven. Sterker nog, alleen op bagging vertrouwen leidde soms tot het missen van belangrijke positieve gevallen, wat onaanvaardbaar zou zijn in een medische context.

Wat dit betekent voor patiënten en artsen

Voor een leek is de kernboodschap dat hoe we de data voorbereiden en vormgeven belangrijker kan zijn dan hoe geavanceerd het voorspellingsmodel is. Simpelweg een complex algoritme loslaten op onevenwichtige, lawaaierige medische gegevens is niet genoeg. Dit werk laat zien dat het balanceren van de data en het zorgvuldig kiezen van een gefocuste set betekenisvolle risicofactoren — vooral die benadrukt door ANOVA-gebaseerde methoden — relatief eenvoudige modellen zoals random forests en beslisbomen in staat stelt veel betrouwbaardere hartziektevoorspellingen te doen. Hoewel deze resultaten nog bevestigd moeten worden in andere populaties en in echte klinische omgevingen, wijzen ze op praktische recepten om vroege-waarschuwingsinstrumenten te bouwen die artsen mogelijk kunnen helpen risicopatiënten eerder op te sporen en preventie-inspanningen gerichter in te zetten.

Bronvermelding: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Trefwoorden: voorspelling van hartziekten, machine learning, kenmerkenselectie, balanceren van gezondheidsgegevens, random forest-modellen