Clear Sky Science · ru

Крупные языковые модели против результатов людей на израильских экзаменах по анестезиологии

· Назад к списку

Почему это важно для врачей и пациентов

Пока инструменты искусственного интеллекта проникают в больницы и аудитории, ключевой вопрос — как они сопоставимы с реальными врачами при проверке базовых медицинских знаний. В этом исследовании проанализировано, как две продвинутые языковые модели сравнивались со сотнями ординаторов анестезиологии в Израиле на официальных письменных экзаменах совета, давая представление о том, на что ИИ может и не может быть способен в медицинском обучении.

Тестирование людей и машин на одном экзамене

Исследователи получили три последовательных года экзаменов Step 1 по анестезиологии Израиля — тест в формате множественного выбора, который сдают в середине ординатуры. Каждый экзамен содержал 150 вопросов на иврите, охватывающих базовую науку, клинические основы, узкоспециализированную анестезию и неотложную помощь. Наряду с анонимизированными групповыми результатами 381 ординатора команда протестировала две коммерческие AI-системы, Claude 3.7 Sonnet и ChatGPT-4, по всем 450 вопросам. Модели отвечали на иврите, видели те же изображения и кривые мониторинга, что и ординаторы, и им препятствовали запоминать предыдущие вопросы. Каждая модель проходила каждый экзамен дважды, чтобы команда могла оценить как точность, так и внутреннюю согласованность.

Figure 1. Сравнение ответов людей и ИИ на одном и том же экзамене по анестезиологии для оценки общего результата тестирования.
Figure 1. Сравнение ответов людей и ИИ на одном и том же экзамене по анестезиологии для оценки общего результата тестирования.

Как хорошо показали себя модели ИИ

В среднем по всем экзаменам Claude 3.7 Sonnet правильно ответил примерно на три из четырёх вопросов, значительно превзойдя общий результат ординаторов — немного более трёх из пяти. ChatGPT-4 показал чуть лучшие результаты, чем ординаторы, но не с большим отрывом. Claude превысил официальный проходной балл при каждой попытке, тогда как ChatGPT-4 сдавал экзамен лишь в половине случаев. Однако по сравнению с лучшим квартилем участников, которые в среднем набирали близко к четырём правильным ответам из пяти, обе системы ИИ всё же отставали. Иными словами, текущие модели обгоняли типичного ординатора на этих письменных тестах, но не догоняли сильнейших людей.

Сильные и слабые стороны, неоднородная продуктивность

Исследование показало, что ИИ-системы были не одинаково эффективны по всем типам вопросов. Обе модели хорошо справлялись с более простыми задачами и лучше всего — в теоретических областях, таких как функционирование сердца, где правила и концепции хорошо установлены. Их результаты падали на более сложных вопросах и в практических областях, таких как амбулаторная анестезия и региональная анестезия, где важны контекст, суждение и тонкий клинический опыт. Вопросы с изображениями, сканами или следами мониторинга также выводили их из строя чаще, чем текстовые задачи, в то время как человеческие ординаторы показывали сопоставимые результаты в обоих форматах. Claude и ChatGPT демонстрировали существенную внутреннюю согласованность при повторном прохождении того же экзамена, однако их ответы лишь умеренно совпадали со схемами ответов людей.

Figure 2. Параллельные сценарии, показывающие, как люди и ИИ справляются с разными типами вопросов экзамена с переменной точностью.
Figure 2. Параллельные сценарии, показывающие, как люди и ИИ справляются с разными типами вопросов экзамена с переменной точностью.

Что это означает для медицинского образования

Эта неоднородная картина имеет важные последствия для того, как следует использовать ИИ в обучении врачей. Поскольку точность моделей колеблется от почти идеальной в одних темах до тревожно низкой в других, полагаться на них как на основной источник обучения может вводить обучающихся в заблуждение. Например, ординатор может получать отличные объяснения по физиологии сердца, но при этом — слабое руководство по некоторым анестезиологическим техникам, не осознавая разницы. Авторы утверждают, что эти инструменты следует применять осторожно в образовательных целях, с внимательным человеческим контролем, проверкой фактов и чётким осознанием их ограничений, особенно в областях, связанных с изображениями и сложным принятием решений в реальном мире.

Вывод для будущего ИИ и анестезии

Исследование делает вывод, что продвинутые языковые модели в настоящее время превосходят среднестатистического ординатора анестезиологии на сложном национальном письменном экзамене, но при этом им не удаётся догнать лучших человеческих исполнителей и наблюдаются значительные пробелы по темам. Сдача теста множественного выбора — лишь одна сторона того, что значит быть безопасным анестезиологом; также требуются практические навыки, управление кризисами и коммуникация с пациентами и командой. Авторы предлагают, что истинный потенциал ИИ заключается не в замене клиницистов, а в их поддержке — в усилении обучения и принятия решений при вдумчивом использовании вместе с человеческим опытом.

Цитирование: Ronen, A., Fein, S., Orbach-Zinger, S. et al. Large language models versus human examinee performance on Israeli anesthesiology board examinations. Sci Rep 16, 14978 (2026). https://doi.org/10.1038/s41598-026-45411-6

Ключевые слова: обучение анестезиологии, экзамены совета, крупные языковые модели, оценка медицинского ИИ, клиническая компетентность