Clear Sky Science · ru

Оценка ChatGPT-4o и Gemini для ведения подагры: сравнительный анализ на основе рекомендаций EULAR

· Назад к списку

Почему умные чат‑боты и болящие суставы важны

Подагра — болезненная форма артрита, которая часто поражает большой палец ноги, — становится всё более распространённой во всём мире. Врачи уже располагают чёткими научно обоснованными рекомендациями по её диагностике и лечению, но многие пациенты по‑прежнему не получают оптимальной помощи. В то же время мощные чат‑боты на основе искусственного интеллекта, такие как ChatGPT‑4o и Gemini, начинают появляться в клинической практике, что ставит простой, но ключевой вопрос: могут ли эти инструменты давать безопасные советы в соответствии с руководствами по подагре, или же они рискуют ввести врачей и пациентов в заблуждение?

Figure 1
Figure 1.

Проверка соответствия чат‑ботов правилу

Исследователи поставили задачу протестировать две ведущие языковые модели — ChatGPT‑4o и Gemini 2.0 Flash — по отношению к официальным европейским (EULAR) рекомендациям по подагре. Два специалиста преобразовали 25 ключевых рекомендаций из руководства в вопросы в стиле врача о реальных ситуациях: как диагностировать подагру, когда начинать урикорегулирующую терапию, как управлять приступами, какие целевые показатели следует ставить в анализах крови и как корректировать образ жизни или сопутствующие препараты. Обоим чат‑ботам задавали одинаковые вопросы в отдельных чистых сессиях, чтобы предыдущие ответы не влияли на последующие.

Как оценивали ответы

Каждый ответ оценивали двое опытных клиницистов, специализирующихся на подагре, которые не знали, какая модель сгенерировала текст. Они выставляли оценки по трём критериям. Во‑первую очередь — достоверность: выглядит ли ответ взвешенным, объективным и заслуживающим доверия, или он опускает важные сведения или преувеличивает преимущества? Во‑вторых — качество: ясен ли ответ, хорошо ли он структурирован и полезен ли специалисту при принятии решений? В‑третьих — соответствие рекомендациям: полностью ли ответ совпадает с тем, что реально рекомендует EULAR, частично ли согласуется с пробелами, или же напрямую противоречит правилам? Команда также проверила, насколько сложны для восприятия ответы, с помощью стандартных тестов на читаемость, оценивающих уровень образования, необходимый для понимания текста.

ChatGPT против Gemini: кто оказался лучше?

Обе модели давали в целом разумные, ясно написанные ответы и часто напоминали обращаться к медицинскому специалисту. Но появились важные различия. ChatGPT‑4o полностью соответствовал рекомендациям по подагре в 76% случаев и давал в основном правильные, но неполные ответы в ещё 20%, при этом лишь один ответ содержал явную медицинскую ошибку. Gemini был полностью согласован в 48% ответов и частично корректен, но неполон, в 32%. Более тревожно, что 12% его ответов смешивали верные идеи с неверной информацией, а 8% прямо противоречили рекомендациям — например, предлагали широкое применение мощного класса противовоспалительных препаратов (ингибиторов IL‑1), тогда как EULAR резервирует их для отдельных, трудно поддающихся лечению пациентов, или настаивали на рутинном начале урикорегулирующей терапии во время острого приступа, где эксперты рекомендуют проявлять больше осторожности.

Читаемо, но не просто

По стилю обе системы оказались удивительно похожи. По нескольким шкалам читаемости тексты обеих моделей требовали, по крайней мере, уровня образования колледжа для комфортного восприятия. Это может быть приемлемо для специалистов, но слишком сложно для большинства пациентов. Ни одна модель не приводила ссылки или источники, если их специально не просили, что затрудняет проверку происхождения информации. Согласованность оценок между рецензентами была от хорошей до отличной, что указывает на консистентность оценки и подтверждает, что различия между чат‑ботами реальны, а не просто отражают субъективные мнения.

Figure 2
Figure 2.

Что это означает для людей, живущих с подагрой

В целом исследование указывает, что продвинутые чат‑боты могут быть полезными помощниками для врачей, ведущих пациентов с подагрой, но они ещё не готовы работать автономно. ChatGPT‑4o оказался более надёжным, более полным и более верным экспертным рекомендациям, чем Gemini, однако даже редкие ошибки могут иметь значение, когда речь идёт о лекарствах и безопасности. Обе модели излагали материал на уровне, слишком сложном для большинства пациентов, и не обеспечивали встроенной прозрачности по источникам. На данный момент авторы считают, что ИИ следует рассматривать как перспективный вспомогательный инструмент, который может помочь клиницистам и преподавателям — но только при проверке его советов по актуальным руководствам и экспертному мнению, особенно в состояниях, таких как подагра, где небольшие различия в дозировке и сроках решений могут существенно повлиять на боль, долгосрочное повреждение и качество жизни.

Цитирование: Meral, H.B., Kolak, E. Evaluation of ChatGPT-4o and Gemini for gout management: a comparative analysis based on EULAR guidelines. Sci Rep 16, 4831 (2026). https://doi.org/10.1038/s41598-026-35166-5

Ключевые слова: подагра, клинические руководства, искусственный интеллект, модели больших языков, ревматология