Clear Sky Science · ru

Человек против искусственного интеллекта: исследование способности молодых академиков из исследовательских и не исследовательских учреждений выявлять аннотации к стоматологическим исследованиям, сгенерированные ChatGPT

· Назад к списку

Почему это исследование важно для обычных читателей

По мере того как инструменты вроде ChatGPT быстро проникают в классы и лаборатории, многие задаются простым вопросом: можем ли мы на самом деле отличить текст, написанный компьютером, от научного текста, созданного человеком? Это исследование рассматривает эту проблему в очень прикладной области — стоматологических исследований — и проверяет, могут ли молодые университетские преподаватели распознать аннотации, написанные ИИ, а также как их навыки соотносятся со специализированным программным обеспечением для обнаружения ИИ.

Figure 1
Figure 1.

Испытание людей и машин

Исследователи сосредоточились на очень конкретном и важном элементе научного письма: аннотации — кратком резюме в начале статьи, которое большинство читателей видит первым. Они собрали 75 реальных аннотаций из ведущих стоматологических журналов и затем попросили ChatGPT написать 75 новых аннотаций по тем же названиям. В результате получился набор из 150 текстов — половина написана людьми, половина — ИИ — которые выглядели как настоящие научные резюме, но различались по происхождению в способ, недоступный для обозревателей.

Молодые академики в центре внимания

Были набраны шесть молодых стоматологических академиков с опытом преподавания и исследований менее двух лет из шести университетов Малайзии — три государственных исследовательских университета и три частных учебных заведения без исследовательской направленности. Каждому участнику предоставляли смесь реальных и сгенерированных ИИ аннотаций, лишённых названий журналов и сведений об авторах, чтобы оставался только текст. Их просили определить, была ли каждая аннотация написана человеком или ИИ, а также оценить её качество по простой шкале, учитывающей ясность, плавность, креативность, глубину понимания, грамматику, использование профессиональной лексики и знание предметной области.

Как программное обеспечение оценивает те же тексты

Те же 150 аннотаций затем оценили три различных детектора ИИ и широко используемый инструмент проверки сходства. Детекторы ИИ оценивают, насколько вероятно, что текст создан системой вроде ChatGPT, в то время как проверка сходства (Turnitin) сравнивает текст с огромными базами существующих материалов, чтобы определить степень совпадения. В совокупности эти инструменты отражают цифровые меры, на которые всё чаще опираются университеты для защиты академической честности в эпоху распространения ИИ-помощников при написании текстов.

Figure 2
Figure 2.

Кто справился лучше, люди или машины?

Молодые академики оказались менее успешными, чем можно было ожидать. Их точность в определении того, была ли аннотация написана человеком или ИИ, варьировала от 44% до 76% — в некоторых случаях не намного выше случайного выбора. Рецензенты из исследовательских университетов не продемонстрировали явного преимущества перед коллегами из частных учебных заведений с уклоном в преподавание; важнее оказались индивидуальные различия. Интересно, что при оценке качества рецензенты чаще ставили реальные аннотации в категории «хорошо» и «отлично», а ИИ-аннотации — в основном как «средние», что указывает на способность уловить различия в глубине и нюансах, даже если они неправильно определяли автора текста.

Детекторы, превзошедшие своих пользователей-человеческих рецензентов

Программное обеспечение, в особенности инструмент под названием GPTZero, оказалось более надёжным в различении человеческих и ИИ-текстов. GPTZero правильно классифицировал около девяти из десяти аннотаций, что значительно лучше, чем у человеческих рецензентов, и превосходило два других протестированных детектора ИИ. Инструмент проверки сходства также показал высокую эффективность: почти все реальные аннотации демонстрировали очень высокую схожесть с существующими источниками (поскольку это были опубликованные работы), тогда как аннотации, сгенерированные ИИ, как правило, имели низкую или умеренную схожесть, отражая способность ChatGPT перефразировать, а не копировать. В совокупности эти инструменты показали, что автоматическое обнаружение на данный момент может опережать необучённое человеческое суждение, по крайней мере для молодых академиков, читающих технические тексты.

Что это значит для образования и науки

Для неспециалистов ключевой вывод таков: даже обученные молодые академики испытывают трудности с надёжным выявлением отшлифованных аннотаций, написанных ИИ, только на основе чтения, и их институциональная принадлежность — к исследовательскому университету или к учебному заведению без исследований — не гарантирует более острых инстинктов. В то же время некоторые инструменты обнаружения уже показывают впечатляющие результаты, хотя они не безупречны и их точность может меняться по мере развития ИИ-систем. Авторы приходят к выводу, что университетам не следует полагаться только на человеческое суждение или на один инструмент. Вместо этого они предлагают комбинированный подход: улучшение обучения ИИ-грамотности для молодых сотрудников, продуманное использование нескольких инструментов обнаружения и чёткие этические правила, чтобы человеческая экспертиза и искусственный интеллект работали вместе для сохранения доверия к научным текстам.

Цитирование: AL-Rawas, M., Abdul Qader, O.A.J., Lin, G.S.S. et al. Human versus artificial intelligence: investigating ability of young academics from research and non-research institutions to identify ChatGPT-generated dental research abstracts. Sci Rep 16, 12287 (2026). https://doi.org/10.1038/s41598-026-42555-3

Ключевые слова: ChatGPT, академическая честность, обнаружение ИИ, стоматологические исследования, молодые учёные