Clear Sky Science · sv

Mänsklig kontra artificiell intelligens: undersökning av förmågan hos unga akademiker från forsknings- respektive icke-forskningsinstitutioner att identifiera ChatGPT-genererade odontologiska forskningssammanfattningar

· Tillbaka till index

Varför denna studie är viktig för allmänheten

När verktyg som ChatGPT snabbt hittar in i klassrum och forskningslaboratorier ställs en enkel fråga av många: kan vi verkligen avgöra när en dator har skrivit något som verkar vara vetenskapligt? Denna studie zoomar in på det problemet i en mycket praktisk kontext – tandvårdsforskning – och testar om unga universitetslärare kan upptäcka AI-skrivna forskningssammanfattningar och hur deras förmåga står sig mot specialiserad AI-detekteringsprogramvara.

Figure 1
Figure 1.

Att sätta människor och maskiner på prov

Forskarna koncentrerade sig på en mycket specifik och viktig del av vetenskapligt skrivande: abstractet, den korta sammanfattningen i början av en forskningsartikel som de flesta läsare ser först. De samlade 75 verkliga abstrakt från ledande odontologiska tidskrifter och bad sedan ChatGPT att skriva 75 nya abstrakt med samma titlar. Det gav en samling på 150 texter – hälften mänskligt skrivna, hälften AI-genererade – som såg ut som äkta forskningssammanfattningar men som skilde sig i ursprung på sätt som granskare inte kunde se.

Unga akademiker i hetluften

Sju tidiga karriärakademiker? Nej: sex tidiga karriärakademiker inom odontologi, alla med mindre än två års undervisnings- och forskningserfarenhet, rekryterades från sex universitet i Malaysia – tre statliga forskningsuniversitet och tre privata icke-forskningsinstitutioner. Varje person fick en blandning av verkliga och AI-skrivna abstrakt, fria från tidskriftsnamn eller författardetaljer så att endast formuleringen återstod. De ombads avgöra om varje abstract var skrivet av en människa eller av AI, och att betygsätta dess kvalitet med ett enkelt formulär som bedömde klarhet, flyt, kreativitet, djup i förståelsen, grammatik, användning av teknisk terminologi och fackkunskap.

Hur programvaran bedömer samma texter

Samma 150 abstrakt utvärderades sedan av tre olika AI-outputdetektorer och en allmänt använd likhetskontrollant. AI-detektorerna uppskattar hur sannolikt det är att en text kommer från ett system som ChatGPT, medan likhetskontrollen (Turnitin) jämför texten mot stora databaser av befintliga texter för att se hur nära den överensstämmer. Tillsammans representerar dessa verktyg de digitala skyddsåtgärder som universitet börjar förlita sig på för att skydda akademisk integritet i takt med att AI-assisterat skrivande blir vanligare.

Figure 2
Figure 2.

Vem gjorde bäst, människor eller maskiner?

De unga akademikerna hade svårare än de kanske väntat sig. Deras framgång i att avgöra om ett abstract var mänskligt eller AI-genererat varierade från 44 % till 76 % – i vissa fall inte mycket bättre än en genomtänkt gissning. Granskare från forskningstunga universitet presterade inte tydligt bättre än de från undervisningsfokuserade privata universitet; individuella skillnader spelade större roll än institutionstyp. Intressant nog tenderade granskarnas kvalitetsbedömningar att placera verkliga abstract som bra till utmärkta och AI-abstract mestadels som medel, vilket tyder på att de kunde ana skillnader i djup och nyans även när de felbedömde vem som skrivit texten.

Detektorer som överträffade sina mänskliga användare

Programvaran, särskilt ett verktyg kallat GPTZero, visade sig vara mer pålitlig på att skilja mänskligt och AI-skrivet material åt. GPTZero klassificerade korrekt ungefär nio av tio abstrakt, betydligt bättre än de mänskliga granskarnas prestation och bättre än de två andra testade AI-detektorerna. Likhetskontrollen presterade också starkt: nästan alla verkliga abstrakt visade mycket hög likhet med befintliga källor (eftersom de var verkligt publicerat arbete), medan AI-genererade abstrakt tenderade att ha låg till måttlig likhet, vilket speglar ChatGPT:s förmåga att omformulera snarare än kopiera. Tillsammans visade dessa verktyg att automatiserad detektion för närvarande kan överträffa ohjälpt mänskligt omdöme, åtminstone för tidiga karriärakademiker som läser tekniska texter.

Vad detta innebär för utbildning och forskning

För icke-specialister är huvudbudskapet att även utbildade unga akademiker har svårt att pålitligt upptäcka polerade AI-skrivna forskningssammanfattningar enbart genom att läsa dem, och deras institutionella bakgrund – forskningsintensiv eller inte – garanterar inte skarpare instinkter. Samtidigt gör vissa detektionsverktyg redan ett förvånansvärt bra jobb, även om de inte är perfekta och deras noggrannhet kan förändras i takt med att AI-system utvecklas. Författarna drar slutsatsen att universitet inte bör förlita sig enbart på mänskligt omdöme eller på en enda detektor. I stället förespråkar de en kombinerad strategi: bättre utbildning i AI-läskunnighet för tidiga karriäranställda, genomtänkt användning av flera detektionsverktyg och tydliga etiska riktlinjer så att mänsklig expertis och artificiell intelligens kan samverka för att skydda vetenskapligt förtroende.

Citering: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3

Nyckelord: ChatGPT, akademisk integritet, AI-detektion, odontologisk forskning, tidiga karriärakademiker