Clear Sky Science · nl

Het schatten van de odds ratio uit output-scores van machine learning-modellen: mogelijkheden en beperkingen

2026-02-16 · Terug naar het overzicht

Waarom dit belangrijk is voor gezondheid en AI

Artsen en volksgezondheidsonderzoekers wenden zich steeds vaker tot kunstmatige intelligentie om te onderzoeken hoe omgevingsfactoren, zoals temperatuur of luchtverontreiniging, onze gezondheid beïnvloeden. Hoewel moderne machine‑learninginstrumenten krachtig zijn in het voorspellen wie mogelijk ziek wordt, schieten ze vaak tekort bij het beantwoorden van een meer fundamentele vraag die clinici en beleidsmakers bezighoudt: hoeveel verhoogt of verlaagt een bepaalde blootstelling het risico? Deze studie pakt dat gat aan door te laten zien hoe de ondoorzichtige output van gangbare machine‑learningmodellen kan worden omgezet in de bekende odds ratios die ten grondslag liggen aan veel medische en epidemiologische besluitvorming.

Van black-box scores naar begrijpelijk risico

In de traditionele epidemiologie koppelt een beproefde methode, logistieke regressie, een blootstelling (bijvoorbeeld koude temperaturen) aan een gezondheidseffect (zoals ziekenhuisopname) terwijl gecontroleerd wordt voor andere factoren zoals leeftijd of vervuiling. Het belangrijkste voordeel is de interpreteerbaarheid: het levert direct een odds ratio op, die aangeeft hoeveel keer groter (of kleiner) de kans op ziekte is in de ene groep vergeleken met de andere. Moderne machine‑learningmethoden zoals random forests en gradient boosting kunnen veel complexere patronen in gegevens vastleggen, maar zij geven doorgaans scores terug zonder eenduidige betekenis voor risico, waardoor het lastig is om resultaten te rapporteren in een taal die clinici vertrouwen. De auteurs zetten zich in om deze twee werelden met elkaar te verbinden.

Nieuwe manieren om risico te lezen uit machine‑learningmodellen

De onderzoekers stelden tien verschillende methoden voor om odds ratios terug te winnen uit de scores van machine‑learningclassifiers. Acht van deze "hybride" schatters beginnen met de ruwe of gekalibreerde scores van het model — getallen tussen nul en één die aangeven hoe waarschijnlijk het is dat elke persoon de uitkomst heeft — en vermenigvuldigen vervolgens een eenvoudige samenvatting van die scores met een aanpassingsfactor afgeleid van een conventionele logistieke regressie. Deze factor houdt rekening met verschillen in leeftijd, seizoen en andere achtergrondvariabelen tussen blootgestelde en niet‑blootgestelde groepen. Twee aanvullende schatters berusten op partial dependence-functies, een instrument dat in feite vraagt: "wat zou het model voorspellen als iedereen blootstellingsniveau A versus niveau B had, terwijl verder alles bleef zoals waargenomen?" Door deze voorspellingen te vergelijken, verkrijgen de auteurs een modelgebaseerde odds ratio die de kijk van het machine‑learningmodel op de gegevens weerspiegelt.

De methoden testen op reële gezondheidsvragen

Om te zien hoe goed deze ideeën werken, pasten de onderzoekers ze toe op drie modellen — logistieke regressie, random forest en gradient boosting — op twee grote epidemiologische datasets uit Israël. De één volgde oudere volwassenen die met ademhalings‑ of hart‑ en vaatproblemen in het ziekenhuis waren opgenomen, met de focus op of ongewoon lage temperaturen de kans op opname verhoogden. De andere volgde meer dan 160.000 zuigelingen om te onderzoeken of hogere prenatale temperaturen samenhingen met overgewicht op tweejarige leeftijd. Voor elke combinatie van dataset en model berekenden zij tien odds‑ratio‑schattingen en hun onzekerheidsintervallen, en vergeleken de resultaten met die van standaard logistieke regressie, behandeld als praktische referentie.

Welke machine‑learningtools presteerden het best

Een cruciale stap in de studie was "kalibratie" — het herschikken van de ruwe scores van machine‑learningmodellen zodat bijvoorbeeld onder mensen die een risico van 20% krijgen toegewezen, ongeveer één op de vijf daadwerkelijk de uitkomst heeft. De auteurs testten drie gangbare kalibratiemethoden en vonden dat een eenvoudige techniek, isotone regressie, vaak de scores van random forest en gradient boosting het dichtst bij goedgedragende waarschijnlijkheden bracht. Wanneer deze gekalibreerde scores werden gebruikt in hun odds‑ratio‑schatters, trad een belangrijk patroon naar voren: odds ratios afgeleid uit gradient boosting kwamen vaak goed overeen met die van logistieke regressie — ongeveer 87% van de schattingen viel binnen het 95% betrouwbaarheidsinterval van het logistische model — en leverden vaak iets smallere onzekerheidsintervallen op. Daartegenover vertoonden random forests grillig gedrag — veel voorspellingen vielen terug naar 0 of 1, waardoor meerdere odds‑ratio‑schattingen instabiel of misleidend werden, zelfs na kalibratie.

Wat dit betekent voor het gebruik van AI in de publieke gezondheid

De studie toont aan dat het mogelijk is om te profiteren van de voorspellende kracht van moderne machine‑learningmodellen zonder de interpreteerbaarheid op te geven, althans onder gangbare omstandigheden in onderzoek naar omgevingsgezondheid. In combinatie met zorgvuldige kalibratie en de voorgestelde schatters kunnen gradient‑boostingmodellen odds ratios opleveren die vergelijkbaar zijn met, en soms preciezer dan, die van klassieke logistieke regressie. Niet alle machine‑learningalgoritmen zijn echter even goed geschikt voor deze taak: random forests kunnen bijzonder voorzichtig gebruik of alternatieve strategieën vereisen wanneer ze worden ingezet om effectgroottes te schatten. Voor beleidsmakers en clinici is de belangrijkste boodschap dat geavanceerde AI‑methoden geen ondoorgrondelijke black boxes hoeven te blijven — bij bedachtzaam gebruik kunnen ze duidelijke, vertrouwde risicomaatstaven opleveren die echte beleidsbeslissingen ondersteunen.

Bronvermelding: Nirel, R., Bauman, N., Morin, E. et al. Estimating the odds ratio from the output scores of machine learning models: possibilities and limitations. Sci Rep 16, 8922 (2026). https://doi.org/10.1038/s41598-026-38150-1

Trefwoorden: odds ratio, machine learning, epidemiologie, risicoschatting, temperatuur en gezondheid