Clear Sky Science · sv
Instabilitet och prestandagränser för konvolutionsneuronätverk på icke-sekventiella medicinska tabelluppgifter: en empirisk undersökning
Varför detta spelar roll för vardagsmedicin
Sjukhus förlitar sig i allt större utsträckning på artificiell intelligens för att hjälpa till att förutsäga vem som har cancer, hjärtsjukdom eller allvarliga infektioner med hjälp av kalkylarks‑liknande journaldata snarare än bilder. Denna studie ställer en förenklat enkel men praktiskt viktig fråga: är dagens populära bildbaserade neurala nätverk faktiskt pålitliga när vi matar dem med sådana icke-bildbaserade, kolumnbaserade medicinska data, eller beter de sig oförutsägbart på sätt som kan vilseleda läkare och patienter?

Två typer av hjärninspirerade räknare
Forskarna jämförde två familjer av neurala nätverk som, på ett grovt sätt, efterliknar hur hjärnor bearbetar information. Konvolutionsneuronätverk, eller CNN:er, är arbetsdjuren inom modern bildigenkänning. De skannar bilder i små patchar och letar efter lokala mönster som kanter eller texturer, för att sedan bygga upp mer komplexa former. Flerlagers perceptroner, eller MLP:er, har ett enklare angreppssätt: de behandlar varje ingångsegenskap — såsom ålder, blodtryck eller ett laboratorievärde — som ett självständigt tal och lär sig viktade kombinationer av dem alla på en gång, utan att anta någon särskild ordning eller närhetsrelation.
Att utsätta medicinska tabeller för testet
För att se hur dessa modeller beter sig på verkliga hälsodata använde teamet tre välkända medicinska dataset som mer liknar kalkylblad än bilder. Ett innehöll laboratorie‑ och kliniska funktioner från patienter med COVID‑19, med målet att förutsäga överlevnad. Ett annat beskrev mikroskopmått av brösttumörer för att särskilja maligna från benigna fall. Det tredje fångade klassiska riskfaktorer för hjärtsjukdom från en kardiologidatabas. Viktigt är att dessa dataset listar variabler sida vid sida, men det finns ingen naturlig ”vänster‑till‑höger”‑ordning som bär betydelse, till skillnad från pixlar i en bild.
Att blanda kolumnerna och skaka modellerna
Studien centrum var ett omfattande stresstest. Författarna blandade upprepade gånger ordningen på inmatningskolumnerna och samtidigt ändrade de slumpmässigt viktiga delar av CNN‑designen, såsom hur många små ”patchläsare” (kärnor) som användes, hur breda dessa patchar var och hur många neuroner som satt i det slutgiltiga beslutslagret. För varje kombination av kolumnblandning och arkitektur — totalt 1 000 permutationer — tränade de CNN:en och parallellt en jämförbar MLP. Istället för att fokusera på en enskild ”bäst” noggrannhet undersökte de hur prestationspoängen spreds över alla dessa körningar, med area under ROC‑kurvan (AUROC) som ett sammanfattande mått på hur väl varje modell separerade sjuka från friska patienter.

Vad de fann inne i den svarta lådan
Resultaten målade en dämpad bild för CNN:er på icke‑bildbaserade medicinska tabeller. I vissa noggrant valda inställningar kunde CNN:er nå eller till och med något överträffa MLP:er i topprestanda — särskilt på bröstcancerdata där många starka, tydligt separerande funktioner fanns. Men över alla blandningar och arkitekturer uppvisade CNN:er mycket större variation i prestanda, med en oroande tendens till ibland mycket svaga körningar. Deras framgång eller misslyckande berodde i hög grad på godtyckliga val: hur kolumnerna ordnades, hur stora de skannande fönstren var och hur många filter respektive noder i sista lagret nätverket använde. Större skanningsfönster, som blandar många intilliggande funktioner, skadade konsekvent både genomsnittlig prestanda och stabilitet på dessa icke‑sekventiella indata.
Varför enklare modeller ofta uppträdde bättre
MLP:er var däremot mycket mindre känsliga för kolumnordning. Eftersom de inte förlitar sig på lokala grannskap förändrade inte blandning av funktionerna vad modellen i princip kunde lära sig. När forskarna ökade antalet neuroner i MLP:ens dolda lager förbättrades dess prestanda stadigt och överträffade ofta CNN:erna, trots att den använde färre totala parametrar. Dataset med klart informativa funktioner tenderade att ge höga och stabila poäng för båda modellerna, men CNN:er bar ändå en högre risk för tillfälliga kollapser. På svårare dataset dominerade av svagare signaler varierade CNN:ernas prestanda kraftigt med arkitekturval, medan MLP:erna förblev relativt stabila.
Huvudbudskap för klinisk AI
För medicinska tillämpningar som bygger på kalkylarks‑liknande journaler i stället för bilder drar denna studie slutsatsen att CNN:er kan vara sköra verktyg. Deras uppenbara styrka på vissa benchmarkar kan spegla lyckliga kolumnordningar och särskilda designval snarare än verkligt robust lärande av medicinska mönster. MLP:er och andra metoder som inte antar en meningsfull spatial layout erbjöd i allmänhet mer tillförlitligt beteende över tusentals försök. För läkare, sjukhusets dataforskare och tillsynsmyndigheter är lärdomen tydlig: när man bygger AI‑system för tabellbaserade hälsodata är det säkrare att prioritera stabilitet och transparens framför att jaga det högsta enskilda prestandatalet från bildstilade nätverk som aldrig designades för sådana indata.
Citering: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9
Nyckelord: medicinska tabelluppgifter, konvolutionsneuronätverk, flerlagers perceptron, kliniska prediktionsmodeller, modellstabilitet