Clear Sky Science · ru

Оценка трех чат-ботов на базе искусственного интеллекта для генерации тестовых вопросов с множественным выбором по клинической гематологии для студентов-медиков

· Назад к списку

Более умные тестовые вопросы для врачей завтрашнего дня

Тесты с множественным выбором могут показаться скучными, но они незаметно формируют навыки будущих врачей. Каждый вопрос на экзамене может направлять то, как студенты думают о реальных пациентах. В этом исследовании поставлен своевременный вопрос: могут ли современные чат-боты на базе искусственного интеллекта помочь загруженным преподавателям медицины быстрее составлять хорошие экзаменационные вопросы по заболеваниям крови, не жертвуя качеством и безопасностью?

Как ИИ помогал создавать экзаменационные вопросы

Исследователи сосредоточились на трех широко используемых чат-ботах, все они предназначены для генерации текста. Каждой системе поручили написать по 50 вопросов с множественным выбором по гематологии — области, изучающей болезни крови, такие как анемия и лейкемия. Вопросы должны были охватывать пять распространенных тем, которые встречаются на медицинских экзаменах и в клинике: панцитопения (снижение всех клеточных форм крови), анемия, тромбоцитопения (низкое количество тромбоцитов) и две группы онкогематологических заболеваний — миело- и лимфопролиферативные синдромы. Всего чат-боты создали 150 вопросов менее чем за полминуты на систему — огромная экономия времени по сравнению с ручным составлением.

Figure 1
Figure 1.

Проверка вопросов, написанных ИИ, под микроскопом

Скорость сама по себе ничего не значит, если вопросы неправильные, запутанные или несправедливые. Чтобы оценить качество, трое опытных преподавателей гематологии — не знавших, какой чат-бот написал какой вопрос — оценивали каждый тестовый элемент по подробному чек-листу. Они оценивали научную точность, клиническую значимость, ясность формулировки, правдоподобие неверных вариантов ответа и общее качество по пятибалльной шкале. Также они judged, соответствует ли уровень сложности студентам-медикам и может ли вопрос различать сильных и слабых студентов. Вопросы, набравшие не менее 15 из 25 баллов, считались приемлемыми для использования; остальные требовали доработки или отклонялись.

Какой чат-бот оказался лучшим?

Все три системы в основном создавали солидные вопросы, но одна модель выделялась. По экспертным оценкам именно этот чат-бот получил наивысшие баллы за точность, клиническую значимость и правдоподобие неверных ответов. Каждый из его 50 вопросов достиг порога приемлемости, и ни один не требовал изменений. Две другие модели также показали хорошие результаты: более девяти из десяти их вопросов были достаточно хороши, но требовали небольших правок, часто потому что неверный вариант был слишком очевидно неправильным или какая-то деталь могла быть сформулирована яснее. В целом эксперты согласились, что все три инструмента быстро генерируют экзаменационный материал, который почти готов к использованию в классе.

Figure 2
Figure 2.

Навыки рассуждения, а не только запоминание

Команда также изучала, какого рода мышление требовали эти вопросы от студентов. Используя таксономию Блума — рамку, которую педагоги используют для классификации умственных навыков — они сгруппировали вопросы на простые (знание и понимание) и более высокоуровневые (применение фактов, анализ ситуаций, оценка вариантов). Удивительно, но чат-боты в основном создавали вопросы более высокого порядка. Для одной модели свыше 90% элементов требовали от студентов рассуждений в клиническом контексте, а не простого воспроизведения фактов. Вопросы на чистое запоминание были относительно редки во всех трех системах. Такая закономерность указывает на то, что большие языковые модели, обученные на огромных объемах связанного текста, естественно склоняются к контекстно-насыщенным задачам и решению проблем, а не к простым карточкам для заучивания.

Перспективы, ограничения и необходимость человеческого участия

Несмотря на эти сильные стороны, исследование выявило важные пробелы. Ни один из чат-ботов сам по себе не предложил вопросы с изображениями, которые критически важны в гематологии, где врачам необходимо интерпретировать микроскопические слайды и лабораторные графики. При прямом запросе о вопросах с изображениями две системы признались, что не могут их предоставить, а одна выдала попытку низкого качества. Исследование также опиралось на мнение экспертов, а не на реальные данные экзаменов студентов, поэтому оно не может полностью доказать, как эти вопросы проявили бы себя в живых тестах. Авторы подчеркивают, что преподавателям все еще нужно проверять факты, уточнять формулировки и следить за тем, чтобы ключевые базовые понятия были адекватно освещены.

Что это значит для будущей медицинской подготовки

Для неспециалиста главный вывод таков: ИИ не заменяет преподавателей медицины, но становится мощным помощником. В этом исследовании чат-боты быстро сгенерировали в основном точные, клинически реалистичные вопросы, которые помогают студентам отрабатывать принятие решений при заболеваниях крови. Одна модель в частности выдала вопросы такого высокого качества, что эксперты использовали бы их с небольшими изменениями или вовсе без них. Тем не менее машины пропускали более простые проверки знаний и не могли самостоятельно работать с визуальным материалом. Авторы приходят к выводу, что наилучший подход — это партнерство: ИИ берет на себя основную работу по составлению разнообразных вопросов, а человеческие эксперты формулируют запросы, дополняют недостающие базовые элементы, проверяют содержание и следят за соответствием меняющимся медицинским рекомендациям.

Цитирование: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

Ключевые слова: медицинское образование, искусственный интеллект, гематология, вопросы с множественным выбором, чат-боты