Clear Sky Science · nl

Instabiliteit en prestatiegrenzen van convolutionele neurale netwerken op niet-sequentiële medische tabelgegevens: een empirisch onderzoek

2026-03-03 · Terug naar het overzicht

Waarom dit ertoe doet in de dagelijkse medische praktijk

Ziekenhuizen vertrouwen steeds vaker op kunstmatige intelligentie om te helpen voorspellen wie kanker, hartziekten of ernstige infecties heeft, gebruikmakend van spreadsheetachtige medische dossiers in plaats van beelden. Deze studie stelt een deceptief eenvoudige vraag met grote praktische gevolgen: zijn de tegenwoordig populaire op beeldgerichte neurale netwerken daadwerkelijk betrouwbaar wanneer we ze zulk niet-beeld, kolomgebaseerd medische gegevens voeren, of gedragen ze zich onvoorspelbaar op manieren die artsen en patiënten zouden kunnen misleiden?

Twee typen hersen-geïnspireerde rekenaars

De onderzoekers vergeleken twee families van neurale netwerken die, op een zeer ruwe manier, nabootsen hoe hersenen informatie verwerken. Convolutionele neurale netwerken, of CNN’s, zijn de werkpaarden van moderne beeldherkenning. Ze scannen afbeeldingen in kleine stukjes en zoeken naar lokale patronen zoals randen of texturen, om vervolgens op te bouwen naar complexere vormen. Multi-layer perceptrons, of MLP’s, volgen een eenvoudigere benadering: zij behandelen elk invoerkenmerk — zoals leeftijd, bloeddruk of een labwaarde — als een onafhankelijk getal en leren gewogen combinaties van al die kenmerken tegelijk, zonder een bepaalde volgorde of buurt aan te nemen.

Medische tabellen op de proef stellen

Om te zien hoe deze modellen zich gedragen op realistische gezondheidsdata, gebruikte het team drie bekende medische datasets die meer op spreadsheets lijken dan op beelden. De ene bevatte laboratorium- en klinische kenmerken van patiënten met COVID‑19, bedoeld om te voorspellen wie zou overleven. Een andere beschreef microscoopmetingen van borstkankertumoren, gebruikt om kwaadaardige van goedaardige gevallen te onderscheiden. De derde bevatte klassieke risicofactoren voor hartziekten uit een cardiologiedatabase. Belangrijk is dat deze datasets variabelen naast elkaar zetten, maar er is geen natuurlijke "links-naar-rechts" volgorde die betekenis draagt, anders dan bij pixels in een afbeelding.

De kolommen husselen en de modellen schudden

Het hart van de studie was een enorme stresstest. De auteurs husselden herhaaldelijk de volgorde van de invoerkolommen en veranderden tegelijkertijd willekeurig belangrijke onderdelen van het CNN‑ontwerp, zoals hoeveel kleine "patch-lezers" (kernels) werden gebruikt, hoe breed die patches waren en hoeveel neuronen in de uiteindelijke beslissingslaag zaten. Voor elke combinatie van hussel- en architectuurinstelling — in totaal 1.000 permutaties — trainden ze het CNN en, parallel, een vergelijkbare MLP. In plaats van te focussen op één "beste" nauwkeurigheid, bekeken ze hoe de prestatiescores zich verspreidden over al deze runs, waarbij de area under the ROC curve (AUROC) werd gebruikt als samenvatting van hoe goed elk model zieke van gezonde patiënten onderscheidde.

Wat ze vonden binnen de zwarte doos

De resultaten schetsten een somber beeld voor CNN’s op niet-beeld medische tabellen. In sommige zorgvuldig gekozen instellingen konden CNN’s de MLP’s evenaren of zelfs licht overtreffen in piekprestaties — vooral bij de borstkankerdataset, die veel sterke, duidelijk onderscheidende kenmerken bevatte. Maar over alle husselingen en architecturen lieten CNN’s veel grotere schommelingen in prestaties zien, met een verontrustende neiging tot af en toe zeer slechte runs. Hun succes of falen hing sterk af van arbitraire keuzes: hoe de kolommen waren gerangschikt, hoe groot elk scanvenster was en hoeveel filters en eindlaagknopen het netwerk gebruikte. Grotere scanvensters, die veel naburige kenmerken samenvoegen, schaadden consequent zowel de gemiddelde prestatie als de stabiliteit op deze niet-sequentiële invoer.

Waarom eenvoudigere modellen vaak beter presteerden

MLP’s daarentegen waren veel minder gevoelig voor kolomvolgorde. Omdat ze niet afhankelijk zijn van lokale buurten, veranderde het husselen van kenmerken niet in principe wat het model kon leren. Toen de onderzoekers het aantal neuronen in de verborgen laag van de MLP verhoogden, verbeterde de prestatie gestaag en overtrof vaak die van CNN’s, ondanks dat ze minder totale parameters gebruikten. Datasets met duidelijk informatieve kenmerken leidden doorgaans tot hoge en stabiele scores voor beide modellen, maar CNN’s droegen nog steeds een hoger risico op incidenteel falen. Bij moeilijkere datasets die gedomineerd werden door zwakkere signalen, varieerden CNN-prestaties sterk met architectuuropties, terwijl MLP’s relatief stabiel bleven.

Boodschap voor klinische AI

Voor medische toepassingen die vertrouwen op spreadsheetachtige gegevens in plaats van beelden, concludeert deze studie dat CNN’s kwetsbare instrumenten kunnen zijn. Hun schijnbare kracht op sommige benchmarks kan het gevolg zijn van gelukkige kolomordening en specifieke ontwerpkeuzes in plaats van daadwerkelijk robuust leren van medische patronen. MLP’s en andere methoden die geen betekenisvolle ruimtelijke indeling veronderstellen, boden over het algemeen betrouwbaarder gedrag over duizenden proefruns. Voor artsen, ziekenhuisdatawetenschappers en toezichthouders is de les duidelijk: bij het bouwen van AI-systemen op tabulaire gezondheidsdata is het veiliger om stabiliteit en transparantie te prioriteren boven het najagen van het hoogste enkele prestatienummer van op beeld gebaseerde netwerken die nooit voor zulke invoer zijn ontworpen.

Bronvermelding: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Trefwoorden: medische tabelgegevens, convolutionele neurale netwerken, multi-layer perceptron, klinische voorspellingsmodellen, modelstabiliteit