Clear Sky Science · ru

Потенциал больших языковых моделей для быстрого клинического информационного обеспечения: данные из тестирования знаний об острой почечной недостаточности

· Назад к списку

Почему это важно для пациентов и врачей

Когда врач сталкивается с больным пациентом, особенно с тем, у кого возможна почечная недостаточность, ему нужно быстро принимать обоснованные решения. В этом исследовании поставлен громкий вопрос: могут ли современные инструменты искусственного интеллекта, известные как большие языковые модели, быстрее и точнее воспроизводить и применять медицинские факты об острой почечной недостаточности, чем реальные клиницисты — и что это будет означать для будущего ухода?

Figure 1
Figure 1.

Распространённая, но опасная проблема почек

Острая почечная недостаточность — это внезапная утрата функции почек, которая часто встречается в стационарах и отделениях неотложной помощи. Она может затрагивать примерно одного из десяти госпитализированных пациентов и до половины пациентов в отделениях интенсивной терапии. Если её пропустить или лечить слишком поздно, у пациентов может развиться необратимое повреждение и далее — хроническая болезнь почек, долгосрочное состояние, которым страдает более одного из десяти людей в мире и которое связано с повышенным риском смерти, сердечных заболеваний и снижением качества жизни. По этой причине от врачей ожидают умения раннего распознавания острой почечной недостаточности и управления ей в соответствии с установленными рекомендациями.

Организация соревнования «человек против машины»

Чтобы проверить, как хорошо искусственный интеллект справляется с этой темой, исследователи организовали «ИИ против человека» на крупной конференции по внутренней медицине в Германии в 2025 году. В самообслуживающемся стенде 123 добровольца — от студентов-медиков до главных врачей — прошли одинаковую онлайн‑викторину. Тест основан на двух коротких клинических историях о проблемах с почками и на 15 вопросах с несколькими вариантами ответов, построенных по рекомендациям, — всё на немецком языке. В то же время 13 публично доступных языковых моделей от нескольких известных провайдеров получили те же случаи и вопросы разом, в стандартных настройках. Такая конструкция позволила напрямую сравнить, с какой точностью и с какой скоростью врачи и машины оперируют узкой областью почечных знаний.

Как выступали люди и машины

Результаты оказались впечатляющими. В среднем участники‑люди правильно отвечали менее чем на половину вопросов, набирая около 7 из 15 баллов. Оценки мало различались между студентами, ординаторами и старшими врачами, хотя студенты демонстрировали наибольшую вариативность. Языковые модели, напротив, в среднем набрали 13,5 из 15 баллов, или 90% правильных ответов. Несколько моделей получили идеальный результат, в то время как слабейшие всё равно сравнялись или превзошли большинство людей. Лишь примерно один из шести участников соответствовал уровню самых низко оценённых моделей, и очень немногие приблизились к лучшим системам. Преимущество в скорости было не менее заметным: одна модель прошла всю викторину примерно за 30 секунд, тогда как людям требовалось более семи минут в среднем.

Figure 2
Figure 2.

Обещания и риски молниеносных ответов

Эти результаты показывают, что большие языковые модели могут служить мощным и относительно недорогим инструментом для быстрого доступа к медицинским фактам, особенно в ситуациях с ограниченным временем и персоналом — в отделениях неотложной помощи, ночных сменах или сельских клиниках. Исследование также даёт понять, что формулировка запроса важна: в небольшом дополнительном эксперименте одна модель показала ещё лучший результат, когда её попросили отвечать так, как если бы она была опытным врачом в ситуации «жизнь или смерть». Тем не менее авторы подчёркивают, что тест измерял лишь воспоминание фактов, основанных на рекомендациях, в контролируемой викторине, а не полноценное клиническое мышление, решение у постели больного или реальные исходы пациентов.

Почему человеческое суждение всё ещё на первом месте

Исследователи отмечают серьёзные слабые стороны современных языковых моделей. Они могут «галлюцинировать», уверенно выдавая ложные или вводящие в заблуждение утверждения — риск, который может возрасти в редких или сложных случаях, где рекомендации дают неясные ответы. Они не могут осмотреть пациента, уловить тонкие физические признаки или проявить эмпатию и выстроить доверие, что критично для качественной помощи. Также остаются важные этические и юридические вопросы: модели изменяются со временем, могут обрабатывать данные непрозрачно и не могут брать на себя ответственность за медицинские решения. По этим причинам авторы считают, что такие системы следует использовать только как инструменты поддержки для извлечения знаний и помощи в принятии решений, с чёткими гарантиями безопасности, регулярным тестированием и строгими правилами конфиденциальности.

Вывод для неспециалистов

Коротко: это исследование показывает, что современные языковые модели могут превзойти многих врачей и студентов в фокусированной письменной викторине по острой почечной недостаточности — и делают это за долю времени. Это делает их многообещающими помощниками для быстрого поиска медицинских фактов. Но поскольку они всё ещё могут уверенно ошибаться и лишены человеческого понимания, они не заменят клиницистов. В обозримом будущем лучшее лечение будет исходить из сочетания быстрых, продуманных инструментов и осторожного, эмпатичного суждения обученных профессионалов.

Цитирование: Russ, P., Bedenbender, S., Einloft, J. et al. Potential of large language models for rapid clinical information support: evidence from acute kidney injury knowledge testing. Sci Rep 16, 11224 (2026). https://doi.org/10.1038/s41598-026-46846-7

Ключевые слова: острая почечная недостаточность, большие языковые модели, клиническая поддержка принятия решений, цифровое здравоохранение, нефрология