Clear Sky Science · ru

Использование мультимодального машинного обучения для точной идентификации риска насилия со стороны интимного партнёра

2026-03-13 · Назад к списку

Почему скрытые признаки важны

Насилие в романтических отношениях часто скрывают даже от врачей, которые видят последствия травм. В то же время медицинские записи молча хранят многолетние подсказки: повторные обращения в неотложные службы, определённые схемы травм и записи о боли или тревоге. В этом исследовании задают вопрос: могут ли компьютеры прочитать эти признаки раньше и надёжнее, чем современные простые скрининговые вопросы, чтобы женщинам, находящимся в группе риска насилия со стороны партнёра, предложили помощь задолго до наступления кризиса.

Преобразование повседневной помощи в систему раннего предупреждения

Исследователи использовали электронные медицинские записи двух крупных больниц США, сосредоточившись на женщинах, которые либо участвовали в программе вмешательства при домашнем насилии, либо имели медицинские диагнозы, связанные с насилием со стороны партнёра. Для каждой из этих женщин они подбирали сопоставимых пациенток того же возрастного диапазона и схожего социального фона, у которых не было задокументированного насилия, создав тщательно сопоставленную контрольную группу. Начиная с 2017 года, в данные включались все контакты этих пациенток с системой больниц — диагнозы, медикаменты, исследования визуализации, жизненные показатели, обращения в экстренные службы и клинические записи, такие как отчёты радиологов или резюме социальных работников.

Обучение компьютеров «читать» числа и тексты

Команда разработала три типа предиктивных моделей, каждая из которых была рассчитана на разный уровень доступности данных в реальных клиниках. Одна модель использовала только структурированную информацию, такую как коды диагнозов, история назначений и количество определённых исследований визуализации. Вторая модель опиралась только на свободный текст заметок, который преобразовывали в числовые представления с помощью современных медицинских языковых моделей, первоначально обученных на миллионах клинических предложений. Третья, «фьюжн»-модель, комбинировала оба источника: она извлекала закономерности из таблиц и из текстов, а затем подавала объединённую информацию в классификатор машинного обучения. Все модели обучались отвечать на ежедневный вопрос при каждом контакте с больницей: показывает ли эта пациентка признаки того, что она может подвергаться насилию со стороны партнёра?

Насколько эффективно работали сигналы риска

При тестировании на женщинах, не участвовавших в обучении, все три модели смогли с высокой точностью отличать тех, у кого было подтверждённое насилие, от сопоставленных контролей. Производительность суммируется метрикой AUC, где 1.0 — идеально, а 0.5 — не лучше случайного угадывания. Модель, использующая только табличные данные, показала AUC около 0.85, модель по заметкам — около 0.87, а комбинированная фьюжн-модель — около 0.88. Важно, что эти результаты сохранялись при применении моделей к новым группам: женщинам, вступившим в программу вмешательства в последующие годы, пациенткам второй больницы той же сети и женщинам с диагнозами, связанными с насилием, но не прошедшим специализированную программу. Во всех случаях фьюжн-модель оставалась выше AUC 0.8, что указывает на то, что сочетание чисел и текста делает систему и точной, и стабильной в разных условиях.

Увидеть закономерности за годы до того, как женщины обратятся за помощью

Кроме различения случаев и контролей, модели часто распознавали проблемы задолго до того, как женщины сообщали о насилии специалистам. Сравнивая первую дату, когда модель отмечала высокий риск, с датой вступления женщины в программу вмешательства, исследователи обнаружили среднее «опережение» более трёх лет, при этом многие случаи были отмечены за четыре или пять лет до обращения. Комбинированная модель заблаговременно выявляла большую долю будущих случаев насилия, тогда как модель только по таблицам иногда предлагала слегка более длительное заблаговременное предупреждение для тех случаев, которые она обнаруживала. Анализ структурированных признаков выделил паттерны риска, согласующиеся с ранними клиническими исследованиями: частые обращения в неотложку, определённые исследования верхних конечностей, высокий приём обезболивающих, психиатрические диагнозы и признаки социальной нестабильности были связаны с повышенным предсказанным риском, тогда как плановые скрининги, такие как маммография, как правило, ассоциировались с более низким риском.

Использование баллов риска без отнятия контроля

Авторы подчёркивают, что эти инструменты не предназначены для «диагностирования» насилия или замены голоса женщины. Они представляют себе работу моделей в фоновом режиме электронных записей, где клиницисты получают приватный балл риска, который может побудить к мягким, основанным на принципах травм-ориентированного подхода беседам и своевременным направлениям к социальным и юридическим службам. Они также предупреждают, что данные отражают только тех женщин, чьё насилие было задокументировано или кто искал помощь, то есть некоторые группы остаются недопредставленными. Прежде чем широко внедрять такие системы, больницам необходимо протестировать их на более общих популяциях, следить за возможной предвзятостью и разработать надёжные механизмы защиты, чтобы помеченные баллы приводили к сострадательным предложениям помощи — а не к давлению или потере автономии. При таком подходе мультимодальное машинное обучение может превратить повседневные медицинские посещения в более ранний и надёжный путь к безопасности для людей, сталкивающихся с домашним насилием.

Цитирование: Gu, J., Carballo, K.V., Ma, Y. et al. Leveraging multimodal machine learning for accurate risk identification of intimate partner violence. npj Womens Health 4, 15 (2026). https://doi.org/10.1038/s44294-025-00126-3

Ключевые слова: насилие со стороны интимного партнёра, электронные медицинские записи, машинное обучение, мультимодальные данные, раннее выявление риска