Clear Sky Science · ru
Эффективность DeepSeek в генерации вопросов для промежуточных экзаменов в обучении ординаторов‑радиологов
Почему важны более продуманные экзаменационные вопросы
Врачи‑радиологи в период обучения регулярно сдают тесты, чтобы оценить свои знания и умение ухаживать за пациентами. Составление таких вопросов требует много экспертного времени, и учебные заведения задаются вопросом, могут ли инструменты искусственного интеллекта помочь. В этом исследовании проверяли, может ли крупная языковая модель DeepSeek взять на себя часть этой работы, генерируя вопросы с вариантами ответов для ординаторов по радиологии, и где по‑прежнему явно необходим человеческий эксперт.

Что хотели выяснить исследователи
Команда из Китая сосредоточилась на ключевом элементе подготовки радиологов: промежуточных экзаменах, которые ежегодно отслеживают прогресс ординаторов. Они сравнили два сопоставимых набора экзаменационных вопросов. Один набор был составлен опытными радиологами в соответствии с национальными стандартами подготовки. Другой набор был сгенерирован моделью DeepSeek на китайском языке с использованием тщательно продуманных подсказок, в которых указывались тема, уровень обучаемого и тип вопроса. Все вопросы должны были соответствовать одним и тем же правилам и были отобраны старшим радиологом, чтобы убедиться в их точности и справедливости перед использованием.
Как проходил экзамен
Из этих банков вопросов исследователи случайным образом выбрали 14 вопросов от ИИ и 14 вопросов от экспертов и смешали их в один 28‑пунктовый онлайн‑тест. Сорок ординаторов второго и третьего года обучения прошли этот экзамен без дополнительных материалов. Для каждого задания они выбирали ответ, угадывали, пришёл ли вопрос от DeepSeek или от человека, и оценивали его по сложности, соответствию учебной программе, общему качеству и реалистичности клинической истории. Такой дизайн позволил команде сравнить не только результаты, но и восприятие вопросов самими обучающимися.

Где ИИ сопоставим с человеческими авторами
В целом по экзамену ординаторы набирали примерно одинаковый процент правильных ответов на вопросах, написанных DeepSeek, и на вопросах от экспертов, и они плохо различали источник каждого задания. Для самого простого типа вопросов, направленного на базовые факты и чёткие правила, задания DeepSeek показывали себя так же, как и созданные людьми. Объективные тестовые метрики, такие как способность вопроса дифференцировать более сильных и более слабых студентов, также указывали, что эти элементы базовых знаний от ИИ в целом надёжны. Это означает, что ИИ может помочь формировать большие банки простых вопросов, которые укрепляют ключевые концепции и снижают нагрузку на преподавателей.
Где человеческое суждение остаётся важным
Ситуация менялась, когда вопросы включали более развернутые клинические истории и сложные решения. Для вопросов средней сложности с краткими клиническими сценами ординаторы отвечали на вопросы ИИ и экспертов с сопоставимой частотой правильно, но оценивали версии от экспертов как более реалистичные и несколько более сложные, особенно старшие ординаторы с большим клиническим опытом. Для самых сложных вопросов, построенных вокруг многоэтапных случаев и задач на суждение, ординаторы существенно лучше справлялись с вопросами, написанными экспертами, чем с вариантами от DeepSeek. Обучающиеся, особенно на ранних этапах, чаще вводились в заблуждение или путались из‑за более поверхностных и менее аутентичных клинических ситуаций, созданных ИИ.
Как люди и ИИ могут работать вместе
Авторы предлагают уровеньный подход. DeepSeek и похожие инструменты хорошо подходят для набросков большого числа простых, хорошо структурированных вопросов, покрывающих стандартные факты и определения. Человеческие эксперты, в свою очередь, должны оставаться ответственными за вопросы, проверяющие, как врачи рассуждают в условиях неопределённости, взвешивают варианты и применяют ценностные суждения в реальной клинической практике. ИИ также может помочь рецензентам выявлять слабые вопросы, тогда как эксперты вносят тонкое понимание, которое приходит только с уходом за пациентами. При чётких границах и тщательном контроле сочетание ИИ и экспертного суждения может сделать медицинские экзамены как более эффективными в подготовке, так и лучше измеряющими действительно важные навыки.
Цитирование: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
Ключевые слова: образование в радиологии, экзаменационные вопросы, искусственный интеллект, крупные языковые модели, медицинская подготовка