Clear Sky Science · nl

Benchmarking van imputatiestrategieën voor ontbrekende tijdreeksgegevens op de IC met realistische scenario’s

· Terug naar het overzicht

Waarom het vullen van datagaten belangrijk is voor IC-patiënten

In moderne intensivecareafdelingen wordt elke hartslag, ademhaling en bloeddrukpuls vastgelegd als een continue stroom getallen. In de praktijk zitten die stromen echter vol gaten: sensoren laten los, patiënten verlaten het bed voor beeldvorming en apparaten worden tijdelijk uitgezet. Wanneer artsen en computers deze onvolledige registraties gebruiken om de toekomst van een patiënt te voorspellen of behandeling te sturen, kan de manier waarop we die ontbrekende stukken "opvullen" subtiel het verhaal veranderen dat de data vertellen. Deze studie stelt een praktische vraag met grote implicaties: tussen een breed scala aan opvulstrategieën — van eenvoudige rechte lijnen tot state-of-the-art kunstmatige intelligentie — welke werken het beste onder de soorten datagaten die daadwerkelijk op de IC voorkomen?

Figure 1
Figure 1.

Een nadere blik op vitale functies op de IC

De onderzoekers maakten gebruik van MIMIC-IV, een grote openbare database met gedeïdentificeerde IC-opnamen van een Amerikaans ziekenhuis. Ze richtten zich op 26.167 volwassen opnames en onderzochten de eerste 48 uur na opname op de IC, waarbij vier continu gemeten vitale functies aan het bed werden gevolgd: hartslag, zuurstofsaturatie, ademhalingsfrequentie en gemiddelde bloeddruk. Om de signalen realistisch te houden werden duidelijk onmogelijke metingen verwijderd en werden alle metingen samengevat tot één waarde per uur. Elk uur zonder geregistreerde waarde voor een bepaalde vitale functie werd als missend beschouwd. Hoewel slechts ongeveer 4% van alle waarden ontbrak, vonden de onderzoekers dat deze gaten niet willekeurig verspreid waren — ze clusterden vaak later in het 48-uursvenster en troffen soms meerdere vitale functies tegelijk.

Hoe realistische datagaten werden nagebootst

In plaats van puur kunstmatige patronen van ontbrekende waarden te bedenken, bouwden de auteurs drie scenario’s geïnspireerd op wat ze in de ruwe data zagen en wat clinici aan het bed waarnemen. In het eerste scenario werden individuele metingen willekeurig verwijderd, wat incidenteel verloren metingen nabootst. In het tweede scenario verdwenen blokken van 1 tot 3 uur over alle vier de vitale functies tegelijk, wat momenten representeert waarop een patiënt van de monitoren weg is — bijvoorbeeld tijdens een scan. In het derde scenario werd één vitale functie — bijvoorbeeld de bloeddruk — gedurende een aaneengesloten periode van 4 uur verwijderd, wat doet denken aan een defecte sensor of losgeraakte probe. Elk scenario verwijderde ongeveer 30% van de data en vormde daarmee een serieuze test voor elke methode die de originele krommen wil reconstrueren.

Oude trucs versus moderne machine-intelligentie

Het team zette vervolgens een brede reeks reconstructiemethoden tegen elkaar af. Eenvoudige standaardmethoden omvatten het vullen van elk gat met de gemiddelde waarde van de patiënt, het doorvoeren van de laatst waargenomen meting (forward fill) of het trekken van een rechte lijn tussen de dichtstbijzijnde bekende punten. Meer geavanceerde statistische hulpmiddelen probeerden ontbrekende waarden te voorspellen aan de hand van de andere vitale functies, maar moesten daarbij de tijdsdimensie afvlakken en elk uur behandelen als een rij in een tabel. Aan de andere kant van het spectrum stonden deep learning-modellen — Transformers, recurrente netwerken en generatieve modellen — die expliciet patronen in de tijd en tussen variabelen leren. Alle modellen werden getraind op data waarbij 30% van de waarden willekeurig werd verborgen en vervolgens getest op elk van de drie maskeringsscenario’s. De prestatie werd beoordeeld aan de hand van hoe ver hun reconstructies afweken van de originele waarden, met speciale aandacht voor fouten in de gemiddelde bloeddruk, een cruciaal signaal voor de circulatieregulatie.

Figure 2
Figure 2.

Wat werkte, wanneer en hoeveel beter

In het algemeen leverden de meest geavanceerde modellen — met name een Transformer-gebaseerde benadering en een generatief adversarieel netwerk — de laagste gemiddelde fouten, vooral wanneer de gaten kort of verspreid waren. Echter, een eenvoudige methode — lineaire interpolatie — presteerde opvallend goed en kwam in veel situaties dicht bij deze neurale modellen in de buurt. Statistische tools die de volgorde van metingen negeerden, zoals random forests en chained equations, bleven achter ondanks hun complexiteit. De vorm van de gaten deed er ook toe. Wanneer waarden willekeurig ontbraken, leken alle methoden beter te presteren, wat een te optimistisch beeld van hun nauwkeurigheid geeft. Lange, aaneengesloten gaten in het register, vooral over meerdere uren of door één defecte sensor, bleken veel moeilijker correct in te vullen. In deze zwaardere omstandigheden degradeerden de beste deep learning-methoden doorgaans vloeiender dan eenvoudige benaderingen, maar de winst was vaak bescheiden wanneer die in echte bloeddruk-eenheden werd uitgedrukt.

Waarom de bevindingen van belang zijn voor beslissingen aan het bed

Voor alledaagse bloeddrukwaarden was het verschil tussen de beste deep learning-modellen en eenvoudige interpolatie vaak slechts enkele millimeters kwikdruk — doorgaans te klein om de beslissing van een arts te veranderen. Toch hadden alle methoden, inclusief de meest geavanceerde, moeite wanneer de bloeddruk zeer laag of zeer hoog was — juist die momenten waarop zorgvuldige monitoring het belangrijkst is. De studie concludeert dat de keuze voor de wijze van omgaan met ontbrekende IC-gegevens net zozeer draait om het begrijpen van hoe en waar gaten optreden als om het kiezen van het nieuwste algoritme. Geavanceerde modellen kunnen incrementele verbeteringen leveren, vooral bij langere of complexere gaten, maar eenvoudige, transparante methoden kunnen voor veel praktische toepassingen ruim voldoende zijn. Cruciaal is dat beter opvullen van gaten niet automatisch betere voorspellende modellen garandeert; vervolgonderzoek moet nagaan hoe deze reconstructiekeuzes doorwerken naar echte klinische beslissingen.

Bronvermelding: Poette, M., Mouysset, S., Ruiz, D. et al. Benchmarking imputation strategies for missing time-series data in critical care using real-world-inspired scenarios. Sci Rep 16, 8116 (2026). https://doi.org/10.1038/s41598-026-39035-z

Trefwoorden: ICU time-series, ontbrekende gegevens, imputatiemethoden, deep learning, vitale functies