Clear Sky Science · ru

Систематическое бенчмаркинг‑исследование показывает, что большие языковые модели ещё не достигли точности диагностических инструментов для редких заболеваний

2026-02-24 · Назад к списку

Почему это важно для пациентов и врачей

Когда у человека редкое заболевание, установление правильного диагноза может занять годы неопределённости, повторных обследований и визитов к множеству специалистов. В то же время мощные новые системы искусственного интеллекта — большие языковые модели — объявляют себя возможными прорывами в медицине. В этом исследовании поставлен простой, но ключевой вопрос: действительно ли эти чат‑боты лучше выявляют редкие генетические болезни, чем специализированные инструменты, которые уже используют врачи, или им ещё предстоит дорасти до этого уровня?

Редкие заболевания и долгий путь к ответам

Хотя каждое редкое заболевание затрагивает относительно небольшое число людей, таких состояний насчитывается более 10 000, и в совокупности они встречаются до одного из двенадцати человек. Многие пациенты проходят «диагностическую одиссею», длящуюся пять–семь лет, прежде чем кому‑то удаётся назвать причину. Для генетических заболеваний важным шагом является сопоставление сочетания симптомов, лабораторных данных и результатов сканирования с известными шаблонами конкретных болезней. Уже существуют проверенные компьютерные программы, которые помогают в этом, используя стандартизованные словари медицинских признаков для поиска среди тысяч возможных состояний.

Испытание чат‑ботов и традиционных инструментов

Исследователи собрали большую коллекцию более пяти тысяч реальных, но анонимизированных случаев пациентов с подтверждёнными редкими генетическими или хромосомными заболеваниями. Каждый случай был тщательно приведён в структурированный формат, кодирующий возраст, пол, симптомы и результаты обследований с использованием общего медицинского словаря. Из этих структурированных записей команда автоматически сгенерировала короткие описания случаев, которые затем передали семи разным языковым моделям, включая универсальные системы и модели, специально обученные на медицинских текстах. Параллельно те же структурированные данные были поданы в Exomiser — широко используемую систему поддержки принятия решений для редких заболеваний — но без каких‑либо данных секвенирования генома, чтобы сравнение было справедливым.

Оценка того, кто нашёл правильное заболевание

Сравнивать ответы чат‑ботов и традиционного ПО сложнее, чем кажется: языковые модели выдают свободный текст, который может использовать разные названия болезней или уровни детализации. Чтобы не полагаться на человеческую оценку «насколько близко» ответ, команда сопоставила каждое предложенное заключение с единым каталогом заболеваний. Предложение модели считалось правильным, если оно соответствовало точному заболеванию, эквивалентному названию или немного более общему варианту, который явно включал истинное состояние. Для каждого случая затем измеряли, на каком месте в ранжированном списке модели находился правильный ответ — первое место, в топ‑3 или в топ‑10.

Что показало очное сравнение

По всем 5 213 случаям Exomiser уверенно превзошёл все протестированные языковые модели. Используя только информацию о симптомах, Exomiser ставил правильный диагноз на первое место примерно в каждом третьем случае и в топ‑10 в значительно большей части случаев. Лучшая языковая модель, ориентированная на рассуждение, достигала первого места чуть менее чем в четверти случаев и попадала в топ‑10 примерно в одной трети случаев. Другие модели, сфокусированные на медицине, показали заметно худшие результаты, а одна очень крупная медицинская модель почти никогда не предлагала правильное заболевание. Эти закономерности сохранялись и при отдельном анализе заболеваний сердца, мозга или иммунной системы, а также при разделении случаев по степени подробности описания симптомов.

Что это значит для будущего ИИ в диагностике

Это исследование показывает, что несмотря на впечатляющие языковые способности, современные большие языковые модели ещё не так надёжны, как специализированные инструменты для постановки диагноза редких генетических заболеваний только по описаниям симптомов. Они по‑прежнему могут быть полезны в роли ассистентов — например, помогая врачам сгенерировать гипотезы или объяснить состояния понятным языком — но не должны заменять проверенное программное обеспечение, когда на кону жизни и долгожданные ответы. Авторы утверждают, что наиболее перспективный путь — интеграция языковых моделей в тщательно выстроенные диагностические конвейеры, где они работают вместе с, а не вместо, надёжных биоинформатических инструментов.

Цитирование: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5

Ключевые слова: редкие заболевания, медицинская диагностика, большие языковые модели, клиническая поддержка принятия решений, генетические расстройства