Clear Sky Science · nl
Mensen versus kunstmatige intelligentie: onderzoek naar het vermogen van jonge academici van onderzoeks- en niet-onderzoeksinstellingen om door ChatGPT gegenereerde tandheelkundige onderzoeksabstracts te herkennen
Waarom deze studie ertoe doet voor gewone lezers
Nu hulpmiddelen zoals ChatGPT snel hun intrede doen in klaslokalen en onderzoekslaboratoria, stellen veel mensen een eenvoudige vraag: kunnen we eigenlijk zien wanneer een computer iets geschreven heeft dat wetenschappelijk lijkt? Deze studie richt zich op dat probleem in een heel praktische context — tandheelkundig onderzoek — en onderzoekt of jonge universitaire docenten AI-geschreven onderzoeks-samenvattingen kunnen herkennen, en hoe hun vaardigheden zich verhouden tot gespecialiseerde AI-detectiesoftware.

Mensen en machines op de proef gesteld
De onderzoekers concentreerden zich op een heel specifieke en belangrijke categorie wetenschappelijk schrijven: de abstract, de korte samenvatting aan het begin van een onderzoeksartikel die de meeste lezers eerst zien. Ze verzamelden 75 echte abstracts uit vooraanstaande tandheelkundige tijdschriften en vroegen vervolgens ChatGPT om 75 nieuwe abstracts te schrijven met dezelfde titels. Dat leverde een verzameling van 150 teksten op — de helft door mensen geschreven, de helft door AI gegenereerd — die als echte onderzoeks-samenvattingen leken, maar waarbij de oorsprong op manieren verschilde die de beoordelaars niet konden zien.
Jonge academici in de hete stoel
Zes beginnende tandheelkundige academici, allen met minder dan twee jaar ervaring in onderwijs en onderzoek, werden gerekruteerd uit zes universiteiten in Maleisië — drie overheids-onderzoeksuniversiteiten en drie particuliere instellingen zonder onderzoeksfocus. Elke deelnemer kreeg een mix van echte en AI-geschreven abstracts, ontdaan van tijdschriftnamen of autoraanduidingen zodat alleen de bewoording overbleef. Ze moesten beslissen of elk abstract door een mens of door AI was geschreven en de kwaliteit beoordelen met een eenvoudig scoreformulier dat duidelijkheid, samenhang, creativiteit, diepgang van begrip, grammatica, gebruik van vakterminologie en vakinhoudelijke kennis beoordeelde.
Hoe software dezelfde teksten beoordeelt
Dezelfde 150 abstracts werden vervolgens geëvalueerd door drie verschillende AI-outputdetectors en een veelgebruikt plagiaat- en similariteitsprogramma. De AI-detectors schatten hoe waarschijnlijk het is dat een tekst afkomstig is van een systeem als ChatGPT, terwijl de similariteitschecker (Turnitin) de tekst vergelijkt met enorme databases van bestaand schrijven om te zien hoe sterk de overeenkomsten zijn. Samen vertegenwoordigen deze tools het soort digitale waarborgen waarop universiteiten beginnen te vertrouwen om academische integriteit te beschermen naarmate AI-geassisteerd schrijven gangbaarder wordt.

Wie deed het beter, mens of machine?
De jonge academici hadden het moeilijker dan ze misschien hadden verwacht. Hun succespercentage bij het identificeren of een abstract door een mens of door AI was geschreven liep uiteen van 44% tot 76% — in sommige gevallen niet veel beter dan een weloverwogen gok. Beoordelaars van onderzoeksintensieve universiteiten presteerden niet duidelijk beter dan die van op onderwijs gerichte privé-instellingen; individuele verschillen waren belangrijker dan het type instelling. Interessant genoeg gaven ze bij het beoordelen van kwaliteit realistische abstracts meestal een hoge tot uitstekende score en beoordeelden AI-abstracts grotendeels als gemiddeld, wat suggereert dat ze subtiele verschillen in diepgang en nuance aanvoelden, zelfs wanneer ze de auteur verkeerd inschatten.
Detectors die hun menselijke gebruikers overtroffen
De software, vooral een tool genaamd GPTZero, bleek betrouwbaarder in het onderscheiden van menselijke en AI-tekst. GPTZero classificeerde ongeveer negen van de tien abstracts correct, veel beter dan de menselijke beoordelaars en beter dan de twee andere geteste AI-detectors. De similariteitschecker presteerde ook sterk: bijna alle echte abstracts vertoonden zeer hoge overeenkomsten met bestaande bronnen (aangezien het daadwerkelijk gepubliceerde werken waren), terwijl AI-gegenereerde abstracts vaak lage tot matige overeenkomsten lieten zien, wat de neiging van ChatGPT om te parafraseren in plaats van te kopiëren weerspiegelt. Gezamenlijk toonden deze tools aan dat geautomatiseerde detectie momenteel onassisteerd menselijk oordeel kan overtreffen, althans voor beginnende academici die technische teksten lezen.
Wat dit betekent voor onderwijs en onderzoek
Voor niet-specialisten is de kernboodschap dat zelfs getrainde jonge academici het moeilijk vinden om betrouwbaar gepolijste, door AI geschreven onderzoeks-samenvattingen alleen op basis van lezen te herkennen, en dat hun institutionele achtergrond — onderzoeksintensief of niet — geen garantie is voor scherpere intuïtie. Tegelijkertijd doen sommige detectietools al verrassend goed werk, hoewel ze niet perfect zijn en hun nauwkeurigheid kan veranderen naarmate AI-systemen evolueren. De auteurs concluderen dat universiteiten niet uitsluitend op menselijk oordeel mogen vertrouwen, noch op één enkele detector. In plaats daarvan pleiten ze voor een gecombineerde aanpak: betere opleiding in AI-geletterdheid voor beginnend personeel, doordacht gebruik van meerdere detectietools en duidelijke ethische richtlijnen, zodat menselijke expertise en kunstmatige intelligentie samenwerken om de betrouwbaarheid van wetenschappelijk schrijven te beschermen.
Bronvermelding: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3
Trefwoorden: ChatGPT, academische integriteit, AI-detectie, tandheelkundig onderzoek, beginnend academisch personeel