Clear Sky Science · it

Instabilità e limiti di prestazione delle reti neurali convoluzionali su dati tabulari medici non sequenziali: un’indagine empirica

2026-03-03 · Torna all'indice

Perché questo è importante per la pratica medica quotidiana

Gli ospedali fanno sempre più affidamento sull’intelligenza artificiale per aiutare a prevedere chi ha il cancro, malattie cardiache o infezioni gravi usando cartelle cliniche simili a fogli di calcolo piuttosto che immagini. Questo studio pone una domanda apparentemente semplice ma con grandi conseguenze pratiche: le reti neurali oggi popolari, progettate per le immagini, sono davvero affidabili quando vengono alimentate con dati medici non immagine, organizzati in colonne, oppure si comportano in modo imprevedibile in modi che potrebbero fuorviare medici e pazienti?

Due tipi di calcolatori ispirati al cervello

I ricercatori hanno confrontato due famiglie di reti neurali che imitano, in modo molto approssimativo, come il cervello elabora le informazioni. Le reti neurali convoluzionali, o CNN, sono i cavalli di battaglia del riconoscimento delle immagini moderno. Esaminano le immagini a piccoli blocchi, cercando pattern locali come bordi o texture, per poi ricomporre strutture più complesse. I percettroni multistrato, o MLP, adottano un approccio più semplice: trattano ogni caratteristica in ingresso—come età, pressione sanguigna o un valore di laboratorio—come un numero indipendente e apprendono combinazioni pesate di tutte contemporaneamente, senza assumere un ordine o una vicinanza particolare.

Mettere alla prova i dati medici tabulari

Per verificare come si comportano questi modelli su dati sanitari reali, il team ha utilizzato tre dataset medici noti che somigliano più a fogli di calcolo che a immagini. Uno conteneva caratteristiche di laboratorio e cliniche di pazienti con COVID‑19, usate per prevedere chi sarebbe sopravvissuto. Un altro descriveva misurazioni al microscopio di tumori al seno, impiegate per distinguere casi maligni da benigni. Il terzo raccoglieva fattori di rischio classici per le malattie cardiache da un database cardiologico. È importante sottolineare che questi dataset elencano variabili affiancate, ma non esiste un ordine “da sinistra a destra” naturale che abbia un significato, diversamente dai pixel in un’immagine.

Rimescolare le colonne e scuotere i modelli

Il cuore dello studio è stato un massiccio test di stress. Gli autori hanno ripetutamente rimescolato l’ordine delle colonne di input e, allo stesso tempo, hanno modificato casualmente parti chiave del progetto delle CNN, come il numero di “lettori di patch” (kernel), la larghezza di queste patch e il numero di neuroni nello strato decisionale finale. Per ogni combinazione di rimescolamento e architettura—1.000 permutazioni in totale—hanno addestrato la CNN e, in parallelo, un MLP comparabile. Invece di concentrarsi su una singola accuratezza “migliore”, hanno osservato come i punteggi di prestazione si distribuissero attraverso tutte queste esecuzioni, usando l’area sotto la curva ROC (AUROC) come riassunto di quanto bene ciascun modello separasse i pazienti malati da quelli sani.

Cosa hanno trovato dentro la scatola nera

I risultati hanno dipinto un quadro preoccupante per le CNN sui tavoli medici non basati su immagini. In alcune impostazioni accuratamente selezionate, le CNN potevano eguagliare o addirittura superare leggermente gli MLP nelle prestazioni di picco—soprattutto nei dati sul cancro al seno, che presentavano molte caratteristiche forti e chiaramente discriminanti. Ma considerando tutti i rimescolamenti e le architetture, le CNN hanno mostrato oscillazioni molto più ampie nelle prestazioni, con una tendenza allarmante verso esecuzioni occasionalmente molto scarse. Il loro successo o fallimento dipendeva fortemente da scelte arbitrarie: l’ordine delle colonne, la dimensione di ciascuna finestra di scansione e il numero di filtri e di nodi nello strato finale. Finestre di scansione più grandi, che mescolano molte caratteristiche vicine, danneggiavano in modo consistente sia le prestazioni medie sia la stabilità su questi input non sequenziali.

Perché i modelli più semplici spesso si comportavano meglio

Gli MLP, al contrario, erano molto meno sensibili all’ordine delle colonne. Poiché non fanno affidamento su vicinanze locali, il rimescolamento delle caratteristiche non cambiava ciò che il modello poteva, in principio, apprendere. Quando i ricercatori hanno aumentato il numero di neuroni nello strato nascosto dell’MLP, le sue prestazioni sono migliorate costantemente e spesso hanno superato quelle delle CNN, nonostante l’uso di meno parametri totali. I dataset con caratteristiche chiaramente informative tendevano a produrre punteggi alti e stabili per entrambi i modelli, ma le CNN mantenevano comunque un rischio maggiore di collasso occasionale. Su dataset più difficili, dominati da segnali deboli, le prestazioni delle CNN variavano enormemente con le scelte di architettura, mentre gli MLP restavano comparativamente più stabili.

Messaggio principale per l’IA clinica

Per le applicazioni mediche che si basano su registri simili a fogli di calcolo anziché su immagini, questo studio conclude che le CNN possono essere strumenti fragili. La loro apparente superiorità in alcuni benchmark può riflettere un ordinamento fortunato delle colonne e decisioni progettuali particolari piuttosto che un apprendimento realmente robusto di pattern medici. Gli MLP e altri metodi che non presumono una disposizione spaziale significativa hanno generalmente offerto un comportamento più affidabile attraverso migliaia di prove. Per medici, data scientist ospedalieri e regolatori, la lezione è chiara: quando si costruiscono sistemi di IA su dati sanitari tabulari, è più sicuro dare priorità alla stabilità e alla trasparenza piuttosto che inseguire il singolo valore di prestazione più alto di reti in stile immagine che non sono state progettate per questi input.

Citazione: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Parole chiave: dati tabulari medici, reti neurali convoluzionali, percettrone multistrato, modelli predittivi clinici, stabilità del modello