Clear Sky Science · ru

Эффективность DeepSeek в генерации вопросов для промежуточных экзаменов в обучении ординаторов‑радиологов

· Назад к списку

Почему важны более продуманные экзаменационные вопросы

Врачи‑радиологи в период обучения регулярно сдают тесты, чтобы оценить свои знания и умение ухаживать за пациентами. Составление таких вопросов требует много экспертного времени, и учебные заведения задаются вопросом, могут ли инструменты искусственного интеллекта помочь. В этом исследовании проверяли, может ли крупная языковая модель DeepSeek взять на себя часть этой работы, генерируя вопросы с вариантами ответов для ординаторов по радиологии, и где по‑прежнему явно необходим человеческий эксперт.

Figure 1. ИИ помогает преподавателям радиологии создавать экзаменационные вопросы, а врачи‑ординаторы используют их для более эффективного обучения.
Figure 1. ИИ помогает преподавателям радиологии создавать экзаменационные вопросы, а врачи‑ординаторы используют их для более эффективного обучения.

Что хотели выяснить исследователи

Команда из Китая сосредоточилась на ключевом элементе подготовки радиологов: промежуточных экзаменах, которые ежегодно отслеживают прогресс ординаторов. Они сравнили два сопоставимых набора экзаменационных вопросов. Один набор был составлен опытными радиологами в соответствии с национальными стандартами подготовки. Другой набор был сгенерирован моделью DeepSeek на китайском языке с использованием тщательно продуманных подсказок, в которых указывались тема, уровень обучаемого и тип вопроса. Все вопросы должны были соответствовать одним и тем же правилам и были отобраны старшим радиологом, чтобы убедиться в их точности и справедливости перед использованием.

Как проходил экзамен

Из этих банков вопросов исследователи случайным образом выбрали 14 вопросов от ИИ и 14 вопросов от экспертов и смешали их в один 28‑пунктовый онлайн‑тест. Сорок ординаторов второго и третьего года обучения прошли этот экзамен без дополнительных материалов. Для каждого задания они выбирали ответ, угадывали, пришёл ли вопрос от DeepSeek или от человека, и оценивали его по сложности, соответствию учебной программе, общему качеству и реалистичности клинической истории. Такой дизайн позволил команде сравнить не только результаты, но и восприятие вопросов самими обучающимися.

Figure 2. Сравнение вопросов, написанных ИИ и людьми, для простых фактов и сложных клинических случаев показывает, где каждый из подходов работает лучше.
Figure 2. Сравнение вопросов, написанных ИИ и людьми, для простых фактов и сложных клинических случаев показывает, где каждый из подходов работает лучше.

Где ИИ сопоставим с человеческими авторами

В целом по экзамену ординаторы набирали примерно одинаковый процент правильных ответов на вопросах, написанных DeepSeek, и на вопросах от экспертов, и они плохо различали источник каждого задания. Для самого простого типа вопросов, направленного на базовые факты и чёткие правила, задания DeepSeek показывали себя так же, как и созданные людьми. Объективные тестовые метрики, такие как способность вопроса дифференцировать более сильных и более слабых студентов, также указывали, что эти элементы базовых знаний от ИИ в целом надёжны. Это означает, что ИИ может помочь формировать большие банки простых вопросов, которые укрепляют ключевые концепции и снижают нагрузку на преподавателей.

Где человеческое суждение остаётся важным

Ситуация менялась, когда вопросы включали более развернутые клинические истории и сложные решения. Для вопросов средней сложности с краткими клиническими сценами ординаторы отвечали на вопросы ИИ и экспертов с сопоставимой частотой правильно, но оценивали версии от экспертов как более реалистичные и несколько более сложные, особенно старшие ординаторы с большим клиническим опытом. Для самых сложных вопросов, построенных вокруг многоэтапных случаев и задач на суждение, ординаторы существенно лучше справлялись с вопросами, написанными экспертами, чем с вариантами от DeepSeek. Обучающиеся, особенно на ранних этапах, чаще вводились в заблуждение или путались из‑за более поверхностных и менее аутентичных клинических ситуаций, созданных ИИ.

Как люди и ИИ могут работать вместе

Авторы предлагают уровеньный подход. DeepSeek и похожие инструменты хорошо подходят для набросков большого числа простых, хорошо структурированных вопросов, покрывающих стандартные факты и определения. Человеческие эксперты, в свою очередь, должны оставаться ответственными за вопросы, проверяющие, как врачи рассуждают в условиях неопределённости, взвешивают варианты и применяют ценностные суждения в реальной клинической практике. ИИ также может помочь рецензентам выявлять слабые вопросы, тогда как эксперты вносят тонкое понимание, которое приходит только с уходом за пациентами. При чётких границах и тщательном контроле сочетание ИИ и экспертного суждения может сделать медицинские экзамены как более эффективными в подготовке, так и лучше измеряющими действительно важные навыки.

Цитирование: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Ключевые слова: образование в радиологии, экзаменационные вопросы, искусственный интеллект, крупные языковые модели, медицинская подготовка