Clear Sky Science · it

Affrontare l’equilibrio tra equità e prestazioni nella predizione del grado del glioma tramite tecniche di mitigazione del bias

· Torna all'indice

Perché è importante trattare i tumori in modo equo

Quando i medici utilizzano l’intelligenza artificiale per supportare la diagnosi dei tumori cerebrali, potremmo pensare che il computer sia neutrale. Ma se i dati impiegati per addestrare questi strumenti riflettono disuguaglianze sanitarie esistenti, il software può trattare alcuni pazienti meno equamente rispetto ad altri senza che si noti. Questo studio esamina come i sistemi di machine learning che predicono la gravità dei gliomi — un tipo comune di tumore cerebrale negli adulti — possano involontariamente favorire certi gruppi razziali o di genere, e testa modalità pratiche per rendere quelle predizioni più eque senza sacrificare troppo la precisione.

Figure 1
Figura 1.

Tumori cerebrali e strumenti computazionali

I gliomi sono tumori cerebrali che vanno da forme a crescita più lenta e più trattabili fino a tumori molto aggressivi con scarsa sopravvivenza. Determinare correttamente il grado di questi tumori è fondamentale, perché guida chirurgia, radioterapia e terapie farmacologiche. I ricercatori hanno lavorato con un dataset pubblico di 839 adulti con glioma a basso grado o con l’aggressivo glioblastoma. Per ciascun paziente disponevano di età, genere, razza e 20 marcatori genetici comuni nel tumore. Hanno addestrato tre modelli di predizione standard — regressione logistica, random forest e gradient boosting — per distinguere i due gradi tumorali usando queste caratteristiche, quindi hanno verificato sia l’accuratezza complessiva dei modelli sia il modo in cui trattavano diversi gruppi di pazienti.

Cercare squilibri nascosti

Per indagare l’equità, il team si è concentrato su due tratti “protetti”: la razza (bianchi vs non bianchi) e il genere (maschio vs femmina). Il dataset era di per sé sbilanciato — oltre il 90% dei pazienti era bianco e c’erano sensibilmente più uomini che donne. Gli autori hanno utilizzato misure di equità a livello di gruppo che confrontano quanto spesso i diversi gruppi ricevono una corretta predizione di “alto grado” e quanto spesso il modello commette errori per ciascun gruppo. Tutti e tre i modelli risultavano abbastanza accurati nel complesso, con la regressione logistica come migliore. Ma sotto quel successo, i controlli di equità hanno rivelato che i pazienti non bianchi generalmente ottenevano risultati peggiori rispetto a quelli bianchi, soprattutto nell’identificare correttamente i tumori meno aggressivi. Al contrario, le prestazioni tra uomini e donne erano molto più bilanciate, con solo piccole differenze tra i generi.

Provare a correggere il bias

I ricercatori si sono quindi chiesti se fosse possibile migliorare l’equità senza indebolire seriamente l’utilità clinica del modello. Hanno scelto la regressione logistica come modello di base, poiché risultava sia il più accurato sia il più equo dei tre. Hanno testato due strategie comuni di debiasing. Un approccio di “pre-processing” chiamato reweighting assegnava maggiore importanza ai pazienti sottorappresentati durante l’addestramento, in modo che il modello prestasse più attenzione a loro. Un approccio di “post-processing” chiamato equalized odds manteneva il modello addestrato ma aggiustava le sue uscite in modo che i tassi di errore diventassero più simili tra i gruppi.

Figure 2
Figura 2.

Cosa è cambiato quando il modello è stato aggiustato

Per il genere, entrambe le strategie hanno generalmente aiutato: la qualità delle predizioni per le donne è migliorata e le differenze tra uomini e donne si sono per lo più ridotte. Per la razza, dove lo squilibrio nei dati era molto più marcato, il quadro è stato più complesso. Il reweighting a volte ha avuto effetti contrari, peggiorando leggermente le prestazioni per i pazienti non bianchi e aumentando l’iniquità secondo alcune misure. Al contrario, il metodo di post-processing ha ridotto sostanzialmente i divari razziali nei tassi di errore mantenendo elevata l’accuratezza complessiva del modello, sebbene abbia leggermente ridotto le prestazioni per il gruppo di maggioranza. Gli autori hanno inoltre mostrato che i numeri di equità per il gruppo non bianco, molto più piccolo, sono statisticamente instabili — modificare la predizione di una sola persona può spostare in modo evidente i punteggi di equità — quindi quei risultati vanno interpretati con cautela.

Cosa significa per pazienti e medici

Lo studio conclude che non esiste una soluzione gratuita: migliorare l’equità nell’IA medica spesso comporta compromessi nelle prestazioni, e la migliore correzione dipende da quanto sono sbilanciati i dati e da quale obiettivo di equità si privilegia. In questo esempio sui tumori cerebrali, aggiustare le uscite del modello dopo l’addestramento si è dimostrato il modo più pratico per rendere le raccomandazioni terapeutiche più equilibrate rispetto a razza e genere, preservando al contempo una forte capacità predittiva. Il lavoro sottolinea che i controlli di equità dovrebbero diventare routine quando si impiega l’IA in ambito sanitario, specialmente per condizioni gravi come il glioma, e che esistono metodi per rendere questi strumenti più equi — ma devono essere scelti e interpretati con prudenza.

Citazione: Sánchez-Marqués, R., García, V. & Sánchez, J.S. Addressing the balance between fairness and performance in glioma grade prediction using bias mitigation techniques. Sci Rep 16, 9785 (2026). https://doi.org/10.1038/s41598-026-40555-x

Parole chiave: classificazione del glioma, equità dell’IA medica, bias algoritmico, tumori cerebrali, mitigazione del bias