Clear Sky Science · ru

Оценка больших языковых моделей для диагностического рассуждения на основе неструктурированных клинических описаний эпилепсии

· Назад к списку

Почему это важно для пациентов и врачей

Когда у человека случается припадок, его внешний вид и ощущения могут дать важные подсказки о том, что происходит в мозге. Врачи используют эти описания, чтобы определить, где в мозге начинаются припадки, и какие методы лечения, включая операцию, могут помочь. В этом исследовании задаются вопросы: могут ли большие языковые модели — тот же вид искусственного интеллекта, что лежит в основе чат-ботов — надежно интерпретировать реальные описания припадков и поддерживать такое диагностическое рассуждение.

Figure 1. Инструменты ИИ интерпретируют описания припадков, чтобы предложить, где в мозге они начинаются.
Figure 1. Инструменты ИИ интерпретируют описания припадков, чтобы предложить, где в мозге они начинаются.

Преобразование историй о припадках в подсказки о мозге

Исследователи сосредоточились на эпилепсии — состоянии, при котором краткие вспышки аномальной активности мозга вызывают припадки. В повседневной практике клиницисты внимательно выслушивают пациента и свидетелей, отмечая такие признаки, как жевательные движения, необычные ощущения или насильственные подергивания конечностей. Эти детали часто указывают на конкретные области мозга, например височную или лобную долю. Команда опиралась на крупный публичный набор данных, в котором более 1200 описаний припадков уже были связаны с семью широкими областями мозга на основании результатов операций, после которых пациенты оставались свободны от припадков — сильный признак того, что истинный источник припадков был удалён.

Испытание множества моделей ИИ

Были оценены восемь разных языковых моделей, включая широко используемые общие системы и две модели, дообученные на медицинских текстах. Каждая модель получала описание припадка и должна была выдать вероятность того, что припадок начался в каждой из семи областей мозга. Исследователи изучали не только то, как часто правильным оказывался первый выбор, но и насколько уверенными были модели, насколько совпадала эта уверенность с реальностью и насколько осмысленными были их письменные объяснения. Результаты сравнивали с простым базовым алгоритмом, который всегда выбирал наиболее частую область мозга, и с двумя специалистами по эпилепсии, которые оценивали подмножество случаев.

Figure 2. Разные стили подсказок направляют ИИ от неструктурированных историй о припадках к выделению области мозга с указанием уверенности.
Figure 2. Разные стили подсказок направляют ИИ от неструктурированных историй о припадках к выделению области мозга с указанием уверенности.

Как формулировка подсказки формирует поведение ИИ

То, как была сформулирована задача для моделей, имело ключевое значение. При даче только базовых инструкций большинство систем работало лишь немного лучше случайного выбора. Производительность улучшалась, когда моделям показывали несколько примеров, просили рассуждать шаг за шагом или давали примеры клинического мышления, написанные экспертами, для подражания. Наиболее ощутимый прирост давали подсказки, поощряющие детальное рассуждение, и объединение нескольких независимых ответов для достижения более стабильного решения. При таких богатых инструкциях лучшие системы по этому узкому заданию близко подходили к точности клиницистов, а также становились более последовательными и лучше калиброванными в своей уверенности.

Сильные стороны, слепые зоны и проверка человеком

Более внимательный анализ выявил важные оговорки. Клинические эксперты рассмотрели рассуждения, сгенерированные двумя лучшими моделями. Одна из них, GPT-4, чаще демонстрировала правильное понимание симптомов, точное использование знаний об эпилепсии и связную логику. Она также чаще корректно ссылалась на реальные научные работы. Другая сильная модель, Mixtral-8×7B, иногда приходила к правильному ответу по неверным причинам, неверно читая детали симптомов или выдумывая поддерживающие факты и ссылки. Исследование также показало, что производительность зависела от длины описания припадка, от того, какую клиническую роль просили принять модель, и от используемого языка. Лучше всего работали очень короткие или очень подробные описания, притворство специалистом улучшало результаты, а использование подсказок не на английском могло снижать точность.

Что это значит для будущей помощи

Авторы делают вывод, что большие языковые модели в контролируемых условиях способны превращать неструктурированные истории о припадках в полезные оценки того, где в мозге начинаются припадки. При тщательно продуманных подсказках их производительность может приблизиться к уровню опытных врачей, по крайней мере для узкой задачи сопоставления признаков припадков с широкими областями мозга. Вместе с тем модели могут звучать убедительно, опираясь на ошибочные рассуждения или вымышленные источники. Эта комбинация потенциала и риска означает, что такие системы могут в будущем помочь в сортировке случаев или поддержке раннего диагностического мышления, но их необходимо тщательно валидировать, строго контролировать и использовать наряду с, а не вместо, человеческой экспертизы.

Цитирование: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z

Ключевые слова: эпилепсия, семиология припадков, большие языковые модели, диагностическое рассуждение, оценка клинического ИИ