Clear Sky Science · ru

Сравнительная эффективность современных и предыдущих крупных языковых моделей и ординаторов по педиатрии на вопросах экзамена in-training

2026-04-02 · Назад к списку

Почему это важно для врачей и семей

По мере появления инструментов искусственного интеллекта в больницах и медицинских вузах ключевой вопрос прост: способны ли эти системы сопоставиться с суждением врачей в обучении, особенно когда речь идет о здоровье детей? В этом исследовании рассматривается, как несколько ведущих языковых моделей ИИ показывают себя на педиатрических экзаменационных вопросах и что это может означать для будущей помощи и обучения.

Тестирование ИИ на реальных экзаменационных вопросах

Исследователи собрали 498 вопросов с педиатрических in-training экзаменов, проведенных в крупной детской больнице в Корее в период с 2016 по 2023 год. Эти экзамены используются для оценки прогресса ординаторов в течение четырех лет обучения. Большинство вопросов были с выбором ответа и охватывали широкий спектр специальностей: от ухода за новорожденными и инфекций до сердечных заболеваний и интенсивной терапии. Примерно один из пяти вопросов содержал медицинские изображения, такие как рентгеновские снимки, сканы или клинические фотографии, тогда как остальные основывались только на письменных описаниях.

Figure 1. Сравнивают системы ИИ и ординаторов по педиатрии на письменных экзаменационных вопросах, проверяющих знания о здоровье детей.

Как сравнивали людей и машины

Были протестированы шесть известных языковых моделей ИИ, представляющих три основные семейства систем и по две генерации в каждом: более ранние версии и более новые с возможностями работы с визуальной информацией. Моделям предъявлялись полные экзаменационные брошюры, а не отдельные вопросы, и им приходилось самостоятельно определять, какие части являются текстом вопроса, какие — вариантами ответов, а какие — изображениями. Вопросы изначально были написаны на корейском с английскими медицинскими терминами, предоставлялись тщательно проверенные переводы. И ординаторы, и ИИ оценивались по одним и тем же правилам: ответ считался верным, если он совпадал с официальным решением или общепринятым синонимом. Чтобы оценить стабильность систем, каждую тестовую часть запускали пять раз и рассчитывали согласованность результатов между прогоном.

Как ИИ показал себя по сравнению с ординаторами по педиатрии

Результаты суммировались как доля правильно отвеченных вопросов. Как и ожидалось, оценки людей росли с уровнем обучения: ординаторы первого года правильно отвечали чуть более чем на половину вопросов, в то время как ординаторы четвертого года достигали примерно 70 процентов. Новейшие модели ИИ показали даже лучшие результаты в целом, набирая около 78 процентов по всем вопросам и явно превосходя самых старших ординаторов. Ранее выпущенные версии ИИ выступали на уровне старших ординаторов. Если рассматривать только текстовые вопросы, современные модели опережали ординаторов четвертого года примерно на 10 процентных пунктов. Системы ИИ также демонстрировали высокую согласованность между отдельными прогонками, с почти идентичными результатами каждый раз.

Figure 2. Модели ИИ лучше справляются с текстовыми вопросами, чем с задачами, основанными на изображениях, при ответах на педиатрические экзаменационные задания.

Где у ИИ по‑прежнему сложности с изображениями

Ситуация изменилась, когда в вопросы входили медицинские изображения. Ни одна из систем ИИ не превзошла старших ординаторов по вопросам с изображениями. Новые модели показали себя лучше предшественников и достигли точности примерно в середине 70 процентов на этих визуальных задачах, но их результаты по-прежнему отставали от сильных показателей на текстовых вопросах. Такая картина повторялась для разных типов изображений, включая рентген, сканирование и клинические фотографии, а также охватывала широкий спектр педиатрических тем. Эти выводы подтверждают другие исследования, указывающие на то, что языковые модели сильны в чтении и рассуждении с текстом, тогда как их способность понимать медицинские изображения, особенно у детей, остается ограниченной.

Что это значит для помощи и обучения

Авторы утверждают, что результаты обнадеживают для образовательных целей, но вызывают осторожность в отношении прямого клинического использования. Высокие и стабильные показатели на письменных экзаменационных вопросах говорят о том, что такие системы могут служить полезными партнерами для обучения, предоставляя педиатрическим стажерам быстрые тренировочные вопросы и объяснения. Однако успех на тестах с выбором ответа не гарантирует безопасной работы с реальными пациентами, где информация менее упорядочена, решения сложнее, а интерпретация изображений критична. Короче говоря, современные мультимодальные инструменты ИИ уже могут соперничать со старшими ординаторами на письменных педиатрических экзаменах, но они по-прежнему уступают в задачах с большим количеством изображений и пока не готовы заменить человеческое суждение в клинике.

Цитирование: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Ключевые слова: педиатрия, крупные языковые модели, медицинские экзамены, поддержка клинических решений, медицинское образование