Clear Sky Science · ru

Повышение точности персонализированного прогнозирования риска самоубийства у пациентов VA за счёт интеграции дискретных моделей обработки естественного языка

2026-03-20 · Назад к списку

Почему это исследование важно

Самоубийства среди военных ветеранов представляют собой серьёзный общественный здравоохранительный кризис, но даже наши лучшие инструменты прогнозирования по‑прежнему пропускают многих людей, находящихся в группе риска, особенно тех, кто не выглядит явно угрожаемым. В этом исследовании изучается, могут ли компьютеры извлекать больше информации из текстов в медицинских карточках ветеранов, чтобы лучше выявлять тех, кому может потребоваться помощь, с особым вниманием к тем, кого сейчас классифицируют как находящихся на низком или умеренном риске.

Смотрим дальше обычных чисел

Департамент по делам ветеранов США (VA) уже использует систему REACH‑VET для пометки ветеранов с наивысшим риском самоубийства. REACH‑VET опирается на «структурированную» информацию, которая удобно укладывается в таблицы, такую как диагнозы, прошлые госпитализации или сведения о том, сообщал ли человек когда‑либо о суицидальных мыслях. Хотя этот подход эффективен, он лучше работает для пациентов, часто пользующихся услугами VA и генерирующих много таких данных. Ветераны с меньшим числом визитов или чьи проблемы не полностью отражены в чекбоксах и кодах могут быть упущены, несмотря на наличие опасности.

Преобразуя врачебные заметки в полезные сигналы

Большая часть того, что клиницисты знают о пациенте, содержится в свободных текстовых заметках, а не в аккуратных полях. Исследователи использовали эти письменные заметки — сделанные за 5–30 дней до смерти для ветеранов, умерших в результате самоубийства, и в тот же интервал для сопоставленных ветеранов, не умерших — чтобы проверить, могут ли языковые шаблоны улучшить прогнозирование риска. Они сравнили два способа обработки текста. Один — «семантический» метод, основанный на экспертно составленных словарях, охватывающих такие понятия, как семейные связи, удовольствие или негативные чувства. Другой — метод подсчёта, который просто учитывает, как часто встречаются определённые слова или короткие фразы, позволяя данным выявлять закономерности без априорных предположений.

Комбинируя два взгляда на язык

На основе этих компонентов команда построила модели машинного обучения, пытавшиеся отличить ветеранов, умерших в результате самоубийства, от схожих ветеранов, не умерших так, отдельно в трёх группах: высокий, умеренный и низкий прогнозируемый риск по REACH‑VET. Они создали модели, использующие только семантические признаки, только подсчёт слов или гибрид обоих подходов. Чтобы справедливо объединить два текстовых подхода, они настроили модель так, чтобы семантические признаки, которых существенно меньше, всё же могли влиять на решения наряду с гораздо более многочисленными подсчитанными признаками. Производительность оценивали с помощью стандартной метрики, которая по сути измеряет, как часто модель присваивает более высокий риск тем, кто умер в результате самоубийства, по сравнению с сопоставленным человеком, не умершим так.

Что выявили модели

Во всех трёх группах рискa модели, основанные исключительно на подсчёте слов, в целом превосходили модели, использующие только семантические словари. Однако наиболее успешными для ветеранов из умеренной и низкой категорий REACH‑VET оказались гибридные модели, которые опирались преимущественно на подсчёт слов, но при этом черпали часть информации из семантических показателей. Эти комбинированные модели обеспечили умеренное улучшение по сравнению только с REACH‑VET, причём наибольшие улучшения наблюдались у ветеранов, изначально помеченных как низкий риск, которые также чаще имели меньше медицинских контактов и менее структурированные данные. Языковые шаблоны, имевшие значение, различались по группам: в заметках для высокорисковых пациентов подчёркивались острые психические проблемы, для умеренного риска — процессы ухода, а для низкого риска — общие медицинские и реабилитационные темы, а также признаки социальной связности или её отсутствия.

Последствия для ухода и профилактики

Эти результаты дают основание полагать, что неструктурированный текст в электронных медицинских записях содержит ценные подсказки, которые могут уточнить оценки риска самоубийства, особенно для людей, не находящихся в самой высокой категории риска. Сочетая простые шаблоны подсчёта слов с более теоретически обоснованными семантическими сигналами и адаптируя модели для разных уровней риска, системы здравоохранения могут раньше выявлять уязвимых ветеранов и разрабатывать вмешательства, соответствующие их уровню и типу риска. Для пациентов с низким риском это может означать менее интенсивную поддержку — автоматические контрольные сообщения, направления к программам поддержки сверстников или оздоровления, либо регулярные обсуждения социальных и эмоциональных проблем во время обычных визитов.

Что это значит для ветеранов и клиницистов

Проще говоря, исследование показывает, что внимание к тому, как клиницисты описывают своих пациентов — наряду с традиционными медицинскими данными — может сделать инструменты прогнозирования самоубийств более чувствительными к ветеранам, которые иначе могли бы ускользнуть от внимания. Несмотря на то, что улучшения умеренные и подход ещё нужно проверить в реальном времени в клинической практике, это практический шаг к более персонализированной, основанной на данных профилактике самоубийств, которая обслуживает не только тех, кто находится в явном кризисе, но и тех, чей риск тише, сложнее и легче упустить.

Цитирование: Dimambro, M., Levy, J., Gui, J. et al. Enhancing personalized suicide risk prediction for VA patients by integrating discrete natural language processing models. Transl Psychiatry 16, 196 (2026). https://doi.org/10.1038/s41398-026-03940-8

Ключевые слова: риск самоубийства среди ветеранов, электронные медицинские записи, обработка естественного языка, модели прогнозирования риска, психиатрическая помощь