Clear Sky Science · nl

Kwantiatieve vergelijking van explainable AI-methoden voor het interpreteren van deep learning–gebaseerde classificatie van 3D-loopkinematica

2026-03-31 · Terug naar het overzicht

Waarom dit onderzoek naar lopen en AI telt

Veel kinderen met aandoeningen zoals cerebrale parese of neuromusculaire ziekten lopen op manieren die moeilijk visueel te diagnosticeren en te classificeren zijn. Artsen gebruiken al 3D-motion-capture van lopen om behandelingen te sturen, maar recente vorderingen in kunstmatige intelligentie kunnen subtiele patronen detecteren die het menselijk oog niet ziet. Het probleem is dat deze krachtige deep learning-instrumenten vaak als black boxes functioneren en antwoorden geven zonder duidelijke redenen. Deze studie stelt een eenvoudige vraag met grote implicaties: kunnen we deze modellen zover krijgen dat ze laten zien op welke delen van het looppatroon ze vertrouwen, zodat clinici hun hulp kunnen begrijpen en vertrouwen?

Van motion capture naar slim patroonherkenning

Gedurende 15 jaar registreerde een looplab in een Frans ziekenhuis gedetailleerde 3D-bewegingen van heupen, knieën, enkels en voeten van kinderen tijdens het lopen. Iedere loopcyclus werd omgezet in tijdsafhankelijke curven die 22 gewrichtshoeken beschrijven aan de meer en minder aangedane zijde. Het team had al meerdere deep learning-modellen getraind om normaal ontwikkelende kinderen te onderscheiden van kinderen met unilaterale of bilaterale cerebrale parese, neuromusculaire aandoeningen of idiopathisch lopen op de tenen, met nauwkeurigheden tot in de hoge 90 procenten. In dit nieuwe werk richtten ze zich, in plaats van weer een nieuw model te ontwerpen, op het openen van de kap van deze bestaande systemen om te zien welke gewrichtshoeken en patronen daadwerkelijk de beslissingen van de computer aansturen.

Figure 1. AI-systeem zet 3D-loopbewegingsgegevens van kinderen om in begrijpelijke groepen looppatronen en aandoeningen.

Zwarte dozen leren zichzelf uit te leggen

De onderzoekers vergeleken vier explainable AI-methoden, elk met een andere manier om een voorspelling terug te voeren op invoerkenmerken. Drie daarvan (LIME, DeepLift en Integrated Gradients) kijken naar hoe kleine veranderingen in de input het modeloutput beïnvloeden voor een gegeven looptrial. De vierde, sequentiële featureselectie genoemd, traint herhaaldelijk modellen terwijl gewrichtshoeken worden toegevoegd of verwijderd om te zien hoe de nauwkeurigheid verandert. Door deze hulpmiddelen toe te passen op drie verschillende loopdatasets en drie deep learning-architecturen, creëerde het team gerangschikte lijsten van welke gewrichten het belangrijkst waren voor elke diagnostische taak, en controleerde vervolgens hoe stabiel en getrouw die rangschikkingen waren.

Wat de modellen zeggen over hoe we lopen

Over alle methoden en datasets heen kwam een duidelijk patroon naar voren. Flexie en extensie van heup, knie en enkel, vooral aan de meer aangedane zijde, verschenen consequent onder de belangrijkste hoeken. Dit zijn dezelfde gewrichten die klinische loopexperts al lange tijd als centraal beschouwen bij het begrijpen van cerebrale parese en verwante stoornissen. Wanneer de onderzoekers testten hoe robuust elke explainable-methode was voor kleine variaties in de data, en hoeveel de modelprestaties daalden wanneer "belangrijke" kenmerken werden verwijderd, stak Integrated Gradients er als meest betrouwbaar uit. Het leverde verklaringen op die weinig veranderden bij vergelijkbare loopcycli en goed overeenkwamen met welke kenmerken het model echt schaadden wanneer ze werden weggenomen.

Figure 2. Explainable AI zoomt in op heup-, knie- en enkelbewegingscurven om de paar gewrichtspatronen te selecteren die het belangrijkst zijn voor de diagnose.

Meer doen met minder, maar beter gekozen signalen

De studie onderzocht ook wat er gebeurt als deep learning-modellen alleen de meest kritische hoeken in plaats van alle 22 krijgen. Met forward feature selection ontdekte het team dat in veel gevallen een enkele gewrichtshoek binnen een paar procentpunten van de nauwkeurigheid van het volledige model kon komen. Met een kleine set top-gerangschikte hoeken kon de prestatie zelfs de oorspronkelijke modelvoering met alle kenmerken overtreffen. Dit suggereert dat het wegnemen van ruis of minder relevante informatie de focus van het model kan verscherpen, waardoor het zowel eenvoudiger als nauwkeuriger wordt, en tegelijk een compacte set loopkenmerken benadrukt die clinici eenvoudig kunnen interpreteren en in de tijd kunnen monitoren.

Wat dit betekent voor toekomstige kliniekbezoeken

Voor niet-specialisten is de belangrijkste boodschap dat deep learning-instrumenten voor loopanalyse niet zomaar raden; ze vertrouwen op dezelfde sleutelbewegingen van gewrichten die menselijke experts al nauwlettend volgen. Door aan te tonen dat één explainable-methode, Integrated Gradients, robuuste en klinisch betekenisvolle verklaringen biedt, brengt de studie AI-gebaseerde loondagose dichter bij dagelijks gebruik. Artsen kunnen zien welke heup-, knie- en enkelbewegingen leidden tot een voorgestelde diagnose, en zelfs vereenvoudigde modellen baseren op deze kritische kenmerken alleen. Deze combinatie van sterke prestaties en transparante redenering kan helpen dat deze hulpmiddelen vertrouwde partners worden bij het bepalen hoe kinderen met loopmoeilijkheden het beste ondersteund kunnen worden.

Bronvermelding: Lan, Z., Lempereur, M., Aïssa-El-Bey, A. et al. Quantitative comparison of explainable AI methods for interpreting deep learning–based classification of 3D gait kinematics. Sci Rep 16, 15560 (2026). https://doi.org/10.1038/s41598-026-46243-0

Trefwoorden: loopanalyse, cerebrale parese, deep learning, explainable AI, gewrichtskinematica