Clear Sky Science · sv
Betydelsen av balanserade dataset med funktionsurval och ensemblemetoder för klassificering av hjärtsjukdomar med särskiljande maskininlärningstekniker: en jämförande analys
Varför detta spelar roll för vanliga hjärtan
Hjärtsjukdom är fortfarande världens största dödsorsak, men de flesta som fyller i hälsoundersökningar eller besöker kliniker ser sällan sina svar omvandlas till tidiga varningar. Denna studie ställer en enkel men kraftfull fråga: om vi rengör och återbalanserar stora hälsodatamängder, noggrant väljer de mest talande riskfaktorerna, och sedan väljer rätt typ av datorbaserad modell — kan vi då märkbart bli bättre på att upptäcka vem som sannolikt kommer att utveckla hjärtproblem?

Att omvandla röriga hälsodata till något användbart
Forskarna arbetade med ett stort offentligt dataset från U.S. Behavioral Risk Factor Surveillance System, som innehåller självrapporterad information från tusentals vuxna om deras hälsa och vanor. Varje person beskrivs av 17 vardagliga egenskaper såsom ålder, rök- och alkoholanvändning, sömntid, fysisk aktivitet, diabetes, njursjukdom och självskattad allmän hälsa, tillsammans med om de har hjärtsjukdom. Som de flesta verkliga medicinska register var datan rörig: vissa värden saknades, några personer var tydliga outliers, och betydligt färre rapporterade hjärtsjukdom än inte. Teamet rengjorde först datan, fyllde i saknade värden, tog bort extrema outliers och delade sedan upp posterna i separata grupper för träning och testning av datormodellerna.
Åtgärda problemet med sällsynta fall
Ett stort hinder var obalans: personer utan hjärtsjukdom var långt fler än de med sjukdom. I sådana situationer kan en modell verka korrekt genom att oftast gissa ”ingen sjukdom” och samtidigt missa många verkliga fall. För att motverka detta använde författarna en teknik kallad oversampling, som skapar realistiska syntetiska exempel av de mer sällsynta ”hjärtsjukdom”-fallen så att träningsdatan innehåller ungefär lika många positiva och negativa utfall. Detta balanseringssteg förbättrade flera modellers förmåga att hitta personer med hjärtsjukdom, men av sig självt gjorde det inte prediktionerna tillförlitligt skarpa eller distinkta.

Välja de mest talande riskfaktorerna
Studien frågade sedan vilka informationsbitar om en person som betyder mest för prediktion. Författarna testade tre familjer av statistiska verktyg som poängsätter varje variabel efter hur starkt den relaterar till hjärtsjukdom. De utvärderade dem ensamma och i åtta olika unioner och snitt, i praktiken genom att fråga: ”Vad händer om vi behåller allt som någon metod flaggar?” versus ”Vad händer om vi bara behåller de egenskaper alla metoder är överens om?” Åldersintervall, självskattad allmän hälsa, svårighet att gå, historik av stroke, diabetes, njursjukdom, kroppsmassindex och vissa livsstilssignaler framträdde upprepade gånger som de mest informativa signalerna över metoderna.
Sätta maskininlärningsmodeller mot varandra
Med balanserad data och noggrant valda funktioner jämförde teamet sju populära maskininlärningsmetoder: logistisk regression, beslutsträd, random forests, naïv Bayes, support vector machines, artificiella neurala nätverk och k-närmsta grannar. De bedömde dem med vanliga mått: total noggrannhet, hur ofta positiva prediktioner var korrekta (precision), hur många verkliga hjärtsjukdomsfall som fångades (recall), och hur väl modeller separerade sjuka från icke-sjuka över alla tröskelvärden (ROC–AUC-poängen). Random forests och beslutsträd steg konsekvent till toppen när funktionsurval applicerades, speciellt när ANOVA-baserade metoder ingick i urvalet. I den bästa konfigurationen nådde en random forest omkring 92 % noggrannhet, 93 % recall och en AUC på 0,92, klart före sina konkurrenter.
När modellkombinationer hjälper — och när de inte gör det
Författarna utforskade också ”bagging”, ett sätt att skapa många något olika versioner av en modell och sedan kombinera deras röster. Denna ensemble-trick används ofta för att minska instabilitet i modeller som beslutsträd. I denna studie gav bagging små förbättringar för några högvariansmodeller men förbättrade inte dramatiskt deras förmåga att skilja hjärtsjukdom från friska fall, särskilt när det användes utan det noggranna funktionsurvalet som beskrivits ovan. Faktum är att förlita sig enbart på bagging ibland lämnade viktiga positiva fall oupptäckta, vilket vore oacceptabelt i en medicinsk kontext.
Vad detta innebär för patienter och läkare
För en lekman är huvudbudskapet att hur vi förbereder och formar datan kan spela större roll än hur avancerad prediktionsmodellen är. Att bara slänga en komplex algoritm på ojämna, brusiga journaler räcker inte. Detta arbete visar att balansera datan och noggrant välja en fokuserad uppsättning meningsfulla riskfaktorer — särskilt de som lyfts fram av ANOVA-baserade metoder — gör det möjligt för relativt raka modeller som random forests och beslutsträd att ge mycket mer tillförlitliga hjärtsjukdomsprediktioner. Även om dessa resultat fortfarande behöver bekräftas i andra populationer och i verkliga kliniska miljöer, pekar de mot praktiska recept för att bygga tidiga varningsverktyg som en dag kan hjälpa läkare att upptäcka riskpatienter tidigare och anpassa förebyggande insatser mer effektivt.
Citering: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4
Nyckelord: prediktion av hjärtsjukdom, maskininlärning, funktionsurval, balansering av hälso-data, random forest-modeller