Clear Sky Science · it

Intelligenza umana versus artificiale: indagine sulla capacità di giovani accademici di istituzioni di ricerca e non di identificare abstract di ricerca odontoiatrica generati da ChatGPT

2026-03-05 · Torna all'indice

Perché questo studio è importante per i lettori comuni

Con strumenti come ChatGPT che entrano rapidamente nelle aule e nei laboratori di ricerca, molti si pongono una domanda semplice: siamo davvero in grado di capire quando un computer ha scritto qualcosa che sembra scientifico? Questo studio si concentra su quel problema in un contesto molto concreto — la ricerca odontoiatrica — e verifica se giovani docenti universitari riescono a riconoscere sommari di ricerca scritti dall’IA e come le loro abilità si confrontino con software specializzati per il rilevamento dell’IA.

Mettere alla prova persone e macchine

I ricercatori si sono concentrati su una porzione molto specifica e importante della scrittura scientifica: l’abstract, il breve riassunto che apre un articolo di ricerca e che la maggior parte dei lettori vede per primo. Hanno raccolto 75 abstract reali da importanti riviste odontoiatriche e poi hanno chiesto a ChatGPT di redigere 75 nuovi abstract utilizzando gli stessi titoli. Questo ha prodotto una raccolta di 150 testi — metà scritti da persone, metà generati dall’IA — che apparivano come veri sommari di ricerca ma differivano per origine in modi non visibili ai valutatori.

Giovani accademici sotto esame

Sono stati reclutati sei accademici odontoiatri alle prime armi, tutti con meno di due anni di esperienza di insegnamento e ricerca, provenienti da sei università in Malesia — tre università governative orientate alla ricerca e tre istituzioni private non orientate alla ricerca. A ciascuno è stato fornito un mix di abstract reali e generati dall’IA, privati di nomi di riviste o dettagli degli autori in modo che rimanesse solo il testo. È stato chiesto loro di decidere se ogni abstract fosse stato scritto da un umano o da un’IA e di valutarne la qualità usando una scheda di punteggio semplice che misurava chiarezza, scorrevolezza, creatività, profondità di comprensione, grammatica, uso del linguaggio tecnico e conoscenza specifica del settore.

Come i software giudicano gli stessi testi

I medesimi 150 abstract sono stati poi valutati da tre diversi rilevatori di output IA e da un diffuso controllore di similarità. I rilevatori di IA stimano quanto sia probabile che un testo provenga da un sistema come ChatGPT, mentre il controllore di similarità (Turnitin) confronta il testo con enormi banche dati di scritti esistenti per verificare quanto si somigli. Insieme, questi strumenti rappresentano i tipi di salvaguardie digitali su cui le università stanno iniziando a fare affidamento per proteggere l’integrità accademica man mano che la scrittura assistita dall’IA diventa più comune.

Chi ha fatto meglio, umani o macchine?

I giovani accademici hanno faticato più di quanto ci si potrebbe aspettare. La loro capacità di identificare se un abstract fosse umano o generato dall’IA è variata dal 44% al 76% — in alcuni casi poco più di un’ipotesi attenta. I valutatori provenienti da università con forte attività di ricerca non hanno mostrato performance chiaramente migliori rispetto a quelli di università private focalizzate sull’insegnamento; le differenze individuali hanno contato più del tipo di istituzione. Interessante notare che, nella valutazione della qualità, i valutatori tendevano a giudicare gli abstract reali come buoni o eccellenti e quelli generati dall’IA per lo più nella fascia media, il che suggerisce che percepivano differenze di profondità e sfumatura anche quando sbagliavano sull’autore del testo.

Rilevatori che hanno superato i loro utenti umani

Il software, in particolare uno strumento chiamato GPTZero, si è rivelato più affidabile nel distinguere tra scrittura umana e scrittura generata dall’IA. GPTZero ha classificato correttamente circa nove abstract su dieci, molto meglio dei valutatori umani e meglio degli altri due rilevatori di IA testati. Anche il controllore di similarità ha mostrato buone prestazioni: quasi tutti gli abstract reali presentavano altissima somiglianza con fonti esistenti (essendo lavori effettivamente pubblicati), mentre gli abstract generati dall’IA tendevano ad avere similarità da bassa a moderata, riflettendo la capacità di ChatGPT di riformulare piuttosto che copiare. Nel complesso, questi strumenti hanno dimostrato che il rilevamento automatizzato può attualmente superare il giudizio umano non assistito, almeno per accademici agli inizi di carriera che leggono testi tecnici.

Cosa significa per l’istruzione e la ricerca

Per i non specialisti, il messaggio chiave è che anche giovani accademici formati trovano difficile individuare in modo affidabile sommari di ricerca ben curati scritti dall’IA semplicemente leggendo, e il loro contesto istituzionale — orientato alla ricerca o meno — non garantisce istinti più acuti. Allo stesso tempo, alcuni strumenti di rilevamento svolgono già un lavoro sorprendentemente efficace, sebbene non siano perfetti e la loro accuratezza possa mutare man mano che i sistemi di IA evolvono. Gli autori concludono che le università non dovrebbero affidarsi solo al giudizio umano, né a un singolo rilevatore. Propongono invece un approccio combinato: migliore formazione sull’alfabetizzazione all’IA per il personale agli inizi di carriera, uso ponderato di più strumenti di rilevamento e linee guida etiche chiare affinché competenza umana e intelligenza artificiale lavorino insieme per proteggere l’affidabilità della scrittura scientifica.

Citazione: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3

Parole chiave: ChatGPT, integrità accademica, rilevamento AI, ricerca odontoiatrica, accademici agli inizi di carriera