Clear Sky Science · ru

Привязка больших языковых моделей к клинической диагностике

· Назад к списку

Умная помощь для врачей

Когда вы приходите к врачу, путь к правильному диагнозу редко укладывается в один вопрос и ответ. Это тщательный диалог: врач расспрашивает о вашей истории болезни, осматривает, назначает исследования и затем сопоставляет все улики. В этом исследовании проверяют, могут ли современные мощные языковые инструменты ИИ действительно помочь на всём этом пути, а не только в виде быстрых вопросов-ответов. Авторы создают и тестируют специальную систему, которая стремится выступать как полноценный клинический партнёр для врачей, и изучают, как совместная работа врача и такой системы может повысить и точность, и скорость постановки диагноза.

Figure 1. ИИ-партнёр работает с врачами, помогая вести пациента от первых симптомов к более ясным диагнозам и исходам.
Figure 1. ИИ-партнёр работает с врачами, помогая вести пациента от первых симптомов к более ясным диагнозам и исходам.

Почему посещения клиники сложны для машин

Множество новостей подчёркивают, что большие языковые модели хорошо справляются с медицинскими экзаменами или короткими ответами. Но реальные приёмы в клинике гораздо более запутаны. Врачи часто начинают с куска информации и должны постепенно собрать детали: как долго длятся симптомы, что показывает осмотр и какие результаты дают лабораторные или инструментальные исследования. На каждом шаге они меняют или уточняют гипотезы. Ранние исследования в основном тестировали ИИ на аккуратных случаях, где вся информация уже была представлена. Авторы утверждают, что это сильно отличается от реальной практики, где пропуск одного ключевого вопроса или теста может привести к ошибочному диагнозу.

Создание тестовой платформы на реальных случаях

Чтобы оценить ИИ реалистичнее, команда создала ClinDiag-Framework — систему диалога между «врачом»-ИИ и «поставщиком», который раскрывает факты о пациенте только по запросу. Они также составили ClinDiag-Benchmark — большую коллекцию из 4 421 реального клинического случая из 32 специальностей, включая сложные случаи, экстренные приёмы и редкие болезни. Каждый случай разбит на этапы, соответствующие клиническим заметкам: первичная жалоба, анамнез, физикальный осмотр, исследования и финальный диагноз. Такая структура позволяет исследователям оценить не только, правильно ли ИИ даёт ответ, но и насколько хорошо он проходит каждый этап, которым обучены люди-врачи.

Обучение ИИ думать ближе к врачу

Авторы затем создали ClinDiag-GPT — специализированную языковую модель, дообученную на 7 616 реальных случаях, переписанных в виде многошаговых диалогов, имитирующих общение врача и пациента. В этих тренировочных историях «врач»-ИИ должен задавать целенаправленные вопросы, решать, какие осмотры провести, назначать подтверждающие тесты и только затем выносить диагноз. Система учится следовать распространённым клиническим привычкам, например, всегда спрашивать о прошлых заболеваниях и семейном анамнезе, и искать твёрдые подтверждения вместо остановки на расплывчатой метке. В тестах по сравнению с несколькими ведущими универсальными моделями ClinDiag-GPT показала лучшую точность в полных диагностических процедурах и допускала меньше ошибок на каждом этапе, в том числе проявляла меньше признаков умственных коротких путей, таких как преждевременный прыжок к любимому диагнозу или упрямое удержание ранней догадки при появлении противоречивых данных.

Figure 2. Система ИИ превращает пошаговые вопросы, осмотры и тесты в более чёткие диагностические решения и лучшие результаты для пациентов.
Figure 2. Система ИИ превращает пошаговые вопросы, осмотры и тесты в более чёткие диагностические решения и лучшие результаты для пациентов.

Насколько ИИ соответствует врачам?

Даже после такого обучения все модели работали заметно хуже в реалистичной пошаговой диагностике, чем в простых тестах вопрос–ответ, что подчёркивает сложность реальной клинической работы. Тем не менее ClinDiag-GPT выделялась: она собирала более полную информацию, логически рассуждала яснее и реже неверно интерпретировала тесты по сравнению с другими системами ИИ. Исследователи также пробовали дополнения, например объединение нескольких агентов «врач»-ИИ или добавление критика на основе ИИ, но это не приводило к стабильному улучшению. Значительно большие преимущества давало целевое дообучение на реальных диагностических рабочих процессах.

Врачи и ИИ, работающие рядом

Возможно, самый практичный тест — это трёхстороннее сравнение: врачи в одиночку, ClinDiag-GPT в одиночку и врачи, работающие совместно с ClinDiag-GPT. На выборке из 60 смешанных случаев группа «партнёрства» показала наивысшую диагностическую точность и завершала случаи быстрее, чем врачи по отдельности. Наибольшие выигрыши были при редких и особенно запутанных состояниях, где широкая медицинская память модели могла дополнять клиническое чутьё и суждения врача. Вместе с тем ИИ всё ещё пропускал или неверно обрабатывал многие случаи и склонен был звучать увереннее, чем это оправдано результатами, что подчёркивает необходимость тщательного контроля со стороны человека.

Что это означает для пациентов

Исследование показывает, что современные ведущие языковые модели далеки от замены врачей в реальных клиниках, но целевая система вроде ClinDiag-GPT уже может выступать как полезный ассистент. Подталкивая диагностический процесс к более тщательной работе и предлагая дополнительные идеи в трудных или редких случаях, она может помогать врачам принимать более верные и быстрые решения. Для пациентов это означает будущее, в котором ваш врач работает при поддержке тихого ИИ-партнёра в фоновом режиме, используя свои широкие медицинские знания, чтобы уменьшить пропущенные признаки и способствовать более внимательному установлению сложных диагнозов.

Цитирование: Chen, X., Zhou, H., Yi, H. et al. Grounding large language models in clinical diagnostics. Nat Commun 17, 4401 (2026). https://doi.org/10.1038/s41467-026-70274-w

Ключевые слова: клиническая диагностика, медицинский ИИ, большие языковые модели, сотрудничество врача и ИИ, точность диагностики