Clear Sky Science · it

Importanza di dataset bilanciati con selezione delle feature e metodi ensemble nella classificazione delle malattie cardiache usando tecniche di machine learning distintive: un'analisi comparativa

· Torna all'indice

Perché questo conta per i cuori di tutti i giorni

Le malattie cardiache sono ancora il principale killer a livello globale, eppure la maggior parte delle persone che compilano questionari sanitari o visitano cliniche non vede mai le proprie risposte trasformate in segnali d'allarme precoci. Questo studio pone una domanda semplice ma potente: se puliamo e riequilibriamo grandi dataset sanitari, scegliamo con cura i fattori di rischio più indicativi e poi adottiamo il giusto tipo di modello computazionale, possiamo fare un lavoro visibilmente migliore nello scoprire chi è probabile che sviluppi problemi cardiaci?

Figure 1
Figura 1.

Trasformare dati sanitari disordinati in qualcosa di utile

I ricercatori hanno lavorato con un ampio dataset pubblico del Behavioral Risk Factor Surveillance System degli Stati Uniti, che contiene informazioni auto‑segnalate da migliaia di adulti su salute e abitudini. Ogni persona è descritta da 17 caratteristiche quotidiane come età, stato di fumatore e consumatore di alcol, ore di sonno, attività fisica, diabete, malattia renale e valutazione complessiva della propria salute, insieme all'indicazione se ha malattia cardiaca. Come nella maggior parte delle cartelle cliniche reali, i dati erano disordinati: alcuni valori mancavano, alcuni individui risultavano outlier chiari e molto meno persone riportavano malattia cardiaca rispetto a chi non la riportava. Il team ha prima pulito i dati, imputato i valori mancanti, rimosso outlier estremi e poi suddiviso i record in gruppi separati per l'addestramento e il test dei modelli computazionali.

Risoluzione del problema dei casi rari

Un grande ostacolo era lo sbilanciamento: le persone senza malattia cardiaca superavano di gran lunga quelle con la condizione. In tali situazioni, un modello può sembrare accurato semplicemente indovinando “nessuna malattia” la maggior parte delle volte, pur mancandone molti casi veri. Per contrastare questo, gli autori hanno usato una tecnica chiamata oversampling, che crea esempi sintetici realistici dei più rari casi con malattia cardiaca in modo che i dati di addestramento contengano numeri approssimativamente uguali di esiti positivi e negativi. Questo passaggio di bilanciamento ha migliorato la capacità di diversi modelli di individuare persone con malattia cardiaca, ma da solo non ha reso le previsioni sufficientemente nette o discriminanti.

Figure 2
Figura 2.

Selezionare i fattori di rischio più indicativi

Lo studio si è poi chiesto quali informazioni su una persona contano di più per la predizione. Gli autori hanno testato tre famiglie di strumenti statistici che assegnano un punteggio a ogni feature in base a quanto è correlata con la malattia cardiaca. Le hanno valutate singolarmente e in otto diverse unioni e intersezioni, sostanzialmente ponendosi “E se tenessimo tutto ciò che qualsiasi metodo segnala?” versus “E se tenessimo solo le feature su cui tutti i metodi concordano?”. Fasce d'età, autovalutazione dello stato di salute generale, difficoltà a camminare, storia di ictus, diabete, malattia renale, indice di massa corporea e alcuni marcatori dello stile di vita sono emersi ripetutamente come i segnali più informativi attraverso i metodi.

Mettere i modelli di machine learning a confronto

Con dati bilanciati e feature scelte con cura, il team ha confrontato sette approcci popolari di machine learning: regressione logistica, alberi decisionali, random forest, naïve Bayes, macchine a vettori di supporto, reti neurali artificiali e k‑nearest neighbors. Li hanno giudicati usando misure comuni: accuratezza complessiva, quanto spesso le predizioni positive erano corrette (precision), quanti veri casi di malattia cardiaca venivano catturati (recall) e quanto bene i modelli separavano malati da non malati su tutte le soglie (punteggio ROC–AUC). Random forest e alberi decisionali sono saliti costantemente in cima una volta applicata la selezione delle feature, specialmente quando metodi basati su ANOVA facevano parte del processo di selezione. Nella migliore configurazione, una random forest ha raggiunto circa il 92% di accuratezza, 93% di recall e un AUC di 0,92, nettamente davanti ai concorrenti.

Quando combinare modelli aiuta—e quando non aiuta

Gli autori hanno esplorato anche il “bagging”, un modo per creare molte versioni leggermente diverse di un modello e poi combinare i loro voti. Questo trucco ensemble è spesso usato per ridurre l'instabilità in modelli come gli alberi decisionali. In questo studio, il bagging ha portato piccoli guadagni per pochi modelli ad alta varianza ma non ha migliorato drasticamente la loro capacità di distinguere casi di malattia cardiaca dai sani, specialmente se usato senza la selezione accurata delle feature descritta sopra. Anzi, affidarsi solo al bagging a volte lasciava importanti casi positivi non rilevati, cosa inaccettabile in un contesto medico.

Cosa significa per pazienti e medici

Per un pubblico non specialistico, il messaggio chiave è che il modo in cui prepariamo e modelliamo i dati può contare più di quanto sia sofisticato il modello predittivo. Lanciare semplicemente un algoritmo complesso su cartelle cliniche diseguali e rumorose non è sufficiente. Questo lavoro mostra che bilanciare i dati e scegliere con cura un insieme mirato di fattori di rischio significativi—specialmente quelli evidenziati dai metodi basati su ANOVA—permette a modelli relativamente semplici come random forest e alberi decisionali di fornire previsioni sulla malattia cardiaca molto più affidabili. Pur necessitando di conferme su altre popolazioni e in contesti clinici reali, i risultati indicano ricette pratiche per costruire strumenti di allerta precoce che un giorno potrebbero aiutare i medici a individuare prima i pazienti a rischio e a calibrare meglio gli sforzi di prevenzione.

Citazione: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Parole chiave: predizione delle malattie cardiache, machine learning, selezione delle feature, bilanciamento dei dati sanitari, modelli random forest