Clear Sky Science · zh

人类与人工智能:调查研究型与非研究型机构的青年学者识别 ChatGPT 生成的牙科研究摘要能力

· 返回目录

这项研究为何与普通读者相关

随着 ChatGPT 等工具迅速走进课堂和研究实验室,很多人会问一个简单的问题:我们能否分辨出看起来像科学文本的内容到底是电脑写的还是人写的?本研究把这个问题放在一个非常实际的情境中——牙科研究——测试青年大学教师是否能识别 AI 写的研究摘要,并将他们的判断与专门的 AI 检测软件进行比较。

Figure 1
Figure 1.

将人和机器置于考验之下

研究者聚焦于科学写作中一个非常具体且重要的部分:摘要,即研究论文开头的短小综述,通常是大多数读者首先看到的内容。他们收集了 75 篇来自领先牙科期刊的真实摘要,然后让 ChatGPT 使用同样的标题撰写 75 篇新的摘要。由此产生了 150 篇文本——一半为人类撰写,一半为 AI 生成——这些文本看起来像真实的研究摘要,但审阅者无法看到其来源。

将青年学者置于焦点

研究招募了六名早期职业的牙科学者,均有不到两年的教学与研究经验,来自马来西亚六所大学——三所政府研究型大学与三所私立非研究型院校。每位参与者收到混合的真实与 AI 撰写摘要,所有期刊名称和作者信息均被删除,仅保留文本。他们被要求判断每篇摘要是由人还是 AI 撰写,并使用一份简单评分表对其质量进行评分,评分维度包括清晰度、连贯性、创造性、理解深度、语法、专业术语使用以及领域特定知识。

软件如何评判相同文本

相同的 150 篇摘要随后由三款不同的 AI 输出检测器和一款广泛使用的相似性检查工具进行评估。AI 检测器估计文本来自类似 ChatGPT 系统的可能性,而相似性检查器(Turnitin)则将文本与庞大的现有写作数据库进行比较,查看匹配程度。这些工具代表了大学在 AI 辅助写作日益普及时,开始依赖的数字化保障手段以维护学术诚信。

Figure 2
Figure 2.

谁更出色,人类还是机器?

这些青年学者的表现比预期更吃力。他们识别摘要是人写还是 AI 写的成功率在 44% 到 76% 之间——在某些情况下仅略优于随手的一次猜测。来自研究型大学的评审并未明显优于来自以教学为主的私立大学的评审;个体差异比机构类型更具影响力。有趣的是,在质量评分方面,评审往往将真实摘要评为良好到优秀,而将 AI 摘要多评为中等,这表明即便他们判断出错,也能在深度和细微差别上有所感知。

表现优于人类的检测器

软件,尤其是一款名为 GPTZero 的工具,在区分人类与 AI 写作方面更为可靠。GPTZero 大约能正确分类九成左右的摘要,远胜于人类评审,也优于另外两款被测试的 AI 检测器。相似性检查器也表现强劲:几乎所有真实摘要都显示出与现有来源的高相似度(因为它们确为已发表作品),而 AI 生成的摘要通常表现为低到中等的相似度,反映出 ChatGPT 更倾向于改写而非直接复制。总体来看,这些工具表明自动化检测目前可以在未辅助手段的人类判断之上取得优势,至少在早期职业学者阅读技术文本时如此。

这对教育与研究意味着什么

对非专业人士来说,核心信息是:即便是受过训练的青年学者,仅凭阅读也很难可靠地识别出经过润色的 AI 撰写研究摘要,而且其所在机构(是否以研究为主)并不保证他们的直觉更敏锐。与此同时,一些检测工具已经能做得相当出色,尽管并不完美,且随着 AI 系统演进其准确度可能发生变化。作者得出结论:大学不应单靠人工判断,也不应依赖单一检测器。相反,应采取组合策略:为早期职业教职员工提供更好的 AI 素养培训、审慎使用多种检测工具,并制定明确的伦理指南,使人类专业知识与人工智能协同工作,以维护科学写作的可信性。

引用: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3

关键词: ChatGPT, 学术诚信, AI 检测, 牙科研究, 早期职业学者