Clear Sky Science · nl

Vergelijking van overeenstemming tussen grote taalmodellen en gepubliceerde klinische proefconclusies over vier AI-platforms

2026-04-02 · Terug naar het overzicht

Waarom dit ertoe doet in de dagelijkse gezondheidszorg

Artsen steunen op grote klinische onderzoeken om te bepalen welke behandelingen veilig en effectief zijn. Tegelijkertijd worden nieuwe kunstmatige-intelligentietools steeds beter in het lezen en samenvatten van medisch onderzoek. Deze studie stelt een eenvoudige maar belangrijke vraag voor zowel patiënten als zorgverleners: wanneer deze tools dezelfde onderzoeken lezen als menselijke experts, komen ze dan tot dezelfde eindoordelen over wat werkt en wat niet?

Hoe de onderzoekers de AI‑tools testten

Het team richtte zich op 20 goed bekende klinische onderzoeken gepubliceerd in het New England Journal of Medicine, over hartziekten, beroerte, diabetes, kanker en hersenchirurgie. Deze onderzoeken werden gekozen omdat ze zorgvuldig waren opgezet en duidelijk gerapporteerd, wat ze tot een stevig testterrein maakte. In plaats van de volledige artikelen aan de AI‑systemen te geven, verstrekten de onderzoekers alleen de tabellen en figuren met de cijfers, zoals gebeurteniscijfers en uitkomstgrafieken. Dit dwong de tools om te vertrouwen op de ruwe data in plaats van simpelweg de geschreven samenvattingen van de auteurs te kopiëren.

Figure 1. Hoe verschillende AI‑hulpmiddelen dezelfde medische onderzoeken lezen en in lijn liggen met de conclusies van artsen.

Wat de AI‑systemen werden gevraagd te doen

Er werden vier veelgebruikte grote taalmodellen getest: ChatGPT, Gemini, Grok3 en Claude. Elk model kreeg dezelfde gestandaardiseerde prompt waarin het werd verzocht de data op vijf manieren te interpreteren. De modellen moesten de algemene bevindingen uitleggen, de statistiek duiden, de resultaten koppelen aan patiëntenzorg, beperkingen van de studie aanwijzen en suggereren hoe de bevindingen in de praktijk toegepast zouden kunnen worden. Twee getrainde analisten vergeleken vervolgens elk AI‑antwoord met het oorspronkelijke proefschrift en gaven prestatiescores voor elk van deze vijf domeinen op een schaal van nul tot vijf.

Hoe goed de AI overeenkwam met menselijke conclusies

ChatGPT liet de sterkste overeenstemming met de gepubliceerde proefconclusies zien en behaalde een perfecte mediaanscore van 25 uit 25 over de 20 onderzoeken. Gemini volgde met 21 uit 25, terwijl Grok3 en Claude achterbleven met mediaanscores van respectievelijk 18 en 17. Alle vier de tools presteerden het best in het beschrijven waarom de resultaten belangrijk zijn voor patiënten, en ChatGPT scoorde in het bijzonder bovenaan in elk domein. Gemini deed het ook goed in het signaleren van studiezwaktes en mogelijke confounders, terwijl Grok3 en Claude minder betrouwbaar waren in het herkennen van beperkingen en in het geven van praktische behandelingssugesties. De twee menselijke beoordelaars waren het nauw met elkaar eens, wat erop wijst dat de scoringsmethode zelf stabiel was.

Figure 2. Stap-voor-stap weergave van hoe AI proefcijfers omzet in oordelen over behandelingen en hun beperkingen.

Waarschuwing over verborgen trainingsdata en veiligheid in de praktijk

Hoewel de cijfers indrukwekkend lijken, waarschuwen de auteurs dat de resultaten met voorzichtigheid geïnterpreteerd moeten worden. De gebruikte onderzoeken zijn beroemd en zijn waarschijnlijk in de trainingsdata van deze AI‑systemen opgenomen. Dat betekent dat de tools deze studies mogelijk al “kennen” en patronen reproduceren die ze eerder hebben gezien, in plaats van onafhankelijk te redeneren vanuit de aangeleverde tabellen. Het ontbreken van blindering over welk systeem elk antwoord produceerde, laat ook ruimte voor subtiele menselijke vooringenomenheid bij het scoren. Daarnaast hadden de gekozen onderzoeken meestal duidelijke, positieve uitkomsten, wat een best‑case scenario vormt in plaats van het rommelige en onzekere onderzoek dat vaak echte beslissingen bepaalt.

Wat dit betekent voor toekomstige zorg

Voor een leek is de conclusie dat sommige AI‑tools, met name ChatGPT en Gemini, vaak medisch proefdata kunnen lezen en het eens zijn met expertconclusies, althans voor bekende, hoogwaardige studies. Dit suggereert dat ze nuttige hulpmiddelen kunnen zijn om complex onderzoek samen te vatten en bewijs te organiseren, maar ze zijn niet klaar om artsen of onderzoekers te vervangen. Hun trainingsgeschiedenis is ondoorzichtig, hun prestaties verschillen per platform en hun antwoorden zijn niet bewezen veilig voor directe behandelbeslissingen. De auteurs pleiten ervoor AI te zien als een krachtige assistent die door cijfers kan filteren en patronen kan blootleggen, terwijl menselijke clinici verantwoordelijk blijven voor oordeel, empathie en definitieve keuzes in patiëntenzorg.

Bronvermelding: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Trefwoorden: grote taalmodellen, klinische onderzoeken, medische AI, evidentiesynthese, klinische besluitondersteuning