Clear Sky Science · de
Mensch versus künstliche Intelligenz: Untersuchung der Fähigkeit junger Akademiker aus forschungs- und nicht-forschungsorientierten Institutionen, von ChatGPT erzeugte zahnmedizinische Forschungsabstracts zu erkennen
Warum diese Studie für Alltagleser wichtig ist
Da Werkzeuge wie ChatGPT schnell in Klassenzimmer und Forschungslabore Einzug halten, fragen sich viele Menschen etwas ganz Einfaches: Können wir wirklich erkennen, wann ein Computer etwas geschrieben hat, das wissenschaftlich klingt? Diese Studie konzentriert sich auf dieses Problem in einem sehr praxisnahen Bereich – der zahnmedizinischen Forschung – und prüft, ob junge Hochschullehrende KI-verfasste Forschungszusammenfassungen identifizieren können und wie ihre Fähigkeiten im Vergleich zu spezialisierter KI-Erkennungssoftware abschneiden.

Menschen und Maschinen im Vergleich
Die Forschenden fokussierten sich auf einen sehr spezifischen und wichtigen Teil wissenschaftlichen Schreibens: das Abstract, die kurze Zusammenfassung am Anfang eines Forschungsartikels, die die meisten Leser zuerst sehen. Sie sammelten 75 echte Abstracts aus führenden zahnmedizinischen Fachzeitschriften und baten dann ChatGPT, zu denselben Titeln 75 neue Abstracts zu verfassen. So entstand ein Pool von 150 Texten – zur Hälfte menschlich verfasst, zur Hälfte von KI erstellt –, die wie echte Forschungszusammenfassungen wirkten, deren Herkunft die Gutachter jedoch nicht sehen konnten.
Junge Akademiker auf dem Prüfstand
Sechs frühkarrierige zahnmedizinische Wissenschaftlerinnen und Wissenschaftler mit weniger als zwei Jahren Lehr- und Forschungserfahrung wurden von sechs Universitäten in Malaysia rekrutiert – drei staatliche Forschungsuniversitäten und drei private, nicht-forschungsorientierte Einrichtungen. Jede Person erhielt eine Mischung aus echten und KI-erstellten Abstracts, aus denen Zeitschriftennamen und Autorendetails entfernt worden waren, sodass nur der Text übrig blieb. Sie sollten entscheiden, ob jedes Abstract menschlich oder von einer KI verfasst wurde, und dessen Qualität anhand eines einfachen Bewertungsbogens einschätzen, der Klarheit, Ablauf, Kreativität, Tiefgang, Grammatik, Verwendung fachlicher Sprache und fachspezifisches Wissen bewertete.
Wie Software dieselben Texte beurteilt
Die gleichen 150 Abstracts wurden anschließend von drei verschiedenen KI-Output-Detektoren und einem weit verbreiteten Ähnlichkeitsprüfer bewertet. Die KI-Detektoren schätzen, wie wahrscheinlich es ist, dass ein Text aus einem System wie ChatGPT stammt, während der Ähnlichkeitsprüfer (Turnitin) den Text mit riesigen Datenbanken vorhandener Texte vergleicht, um zu prüfen, wie eng er übereinstimmt. Zusammen repräsentieren diese Werkzeuge die digitalen Schutzmaßnahmen, auf die Universitäten zunehmend setzen, um die akademische Integrität zu sichern, während KI-unterstütztes Schreiben verbreiteter wird.

Wer schnitt besser ab, Menschen oder Maschinen?
Die jungen Akademiker hatten größere Schwierigkeiten, als sie vielleicht erwartet hatten. Ihre Erfolgsraten bei der Erkennung, ob ein Abstract menschlich oder KI-generiert war, lagen zwischen 44 % und 76 % – in einigen Fällen nicht viel besser als eine wohlüberlegte Vermutung. Gutachter aus forschungsintensiven Universitäten schnitten nicht eindeutig besser ab als diejenigen aus lehrzentrierten privaten Universitäten; individuelle Unterschiede waren wichtiger als die Art der Institution. Interessanterweise bewerteten die Gutachter bei der Qualitätsbeurteilung echte Abstracts tendenziell als gut bis ausgezeichnet und KI-Abstracts meist als durchschnittlich, was darauf hindeutet, dass sie Unterschiede in Tiefe und Nuance wahrnehmen konnten, selbst wenn sie die Urheberschaft falsch einschätzten.
Detektoren, die ihren menschlichen Nutzern überlegen waren
Die Software, insbesondere ein Tool namens GPTZero, erwies sich als verlässlicher darin, menschliche und KI-Schreibweisen zu unterscheiden. GPTZero klassifizierte etwa neun von zehn Abstracts korrekt, deutlich besser als die menschlichen Gutachter und besser als die beiden anderen getesteten KI-Detektoren. Auch der Ähnlichkeitsprüfer lieferte starke Ergebnisse: Fast alle echten Abstracts wiesen eine sehr hohe Übereinstimmung mit vorhandenen Quellen auf (da es sich um tatsächlich veröffentlichte Arbeiten handelte), während KI-generierte Abstracts tendenziell geringe bis mäßige Ähnlichkeit zeigten, was ChatGPTs Fähigkeit widerspiegelt, umzuformulieren statt zu kopieren. Insgesamt zeigten diese Werkzeuge, dass automatisierte Erkennung derzeit die ununterstützte menschliche Einschätzung übertreffen kann, zumindest bei frühkarrierigen Akademikern, die technische Texte lesen.
Was das für Lehre und Forschung bedeutet
Für Nicht-Fachleute ist die Kernbotschaft, dass selbst geschulte junge Akademiker es schwer haben, polierte, von KI verfasste Forschungszusammenfassungen allein durch Lesen zuverlässig zu erkennen, und dass der institutionelle Hintergrund – forschungsstark oder nicht – keine Garantie für bessere Intuition bietet. Gleichzeitig leisten einige Erkennungswerkzeuge bereits überraschend gute Arbeit, obwohl sie nicht perfekt sind und ihre Genauigkeit sich mit der Entwicklung von KI-Systemen verändern kann. Die Autorinnen und Autoren schließen daraus, dass Universitäten sich nicht allein auf menschliches Urteil und nicht auf ein einzelnes Detektor-Tool verlassen sollten. Stattdessen plädieren sie für einen kombinierten Ansatz: bessere Ausbildung in KI-Kompetenz für frühkarrierige Mitarbeitende, überlegte Nutzung mehrerer Erkennungswerkzeuge und klare ethische Richtlinien, damit menschliche Expertise und künstliche Intelligenz zusammenarbeiten, um die Vertrauenswürdigkeit wissenschaftlicher Texte zu schützen.
Zitation: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3
Schlüsselwörter: ChatGPT, akademische Integrität, KI-Erkennung, zahnmedizinische Forschung, frühkarrierige Akademiker