Clear Sky Science · ru
Интеграция осведомлённости о справедливости в модели обработки клинического языка
Почему это важно для реальной медицины
Современная медицина всё больше опирается на искусственный интеллект, созданный на основе электронных медицинских записей. Однако базовый факт о пациентах — их раса и этническая принадлежность — часто отсутствует или фиксируется непоследовательно. Этот пробел затрудняет выявление и исправление неравенств в здравоохранении. В статье исследуется, могут ли компьютеры надёжно восстановить информацию о расе по записям врачей, при этом избегая несправедливого отношения к разным группам, и что это говорит о смещениях как в медицинских записях, так и в инструментах ИИ.

Скрытые пробелы в медицинской документации
Во многих больницах и клиниках поля, связанные с расой и этнической принадлежностью, остаются пустыми или используют устаревшие категории. Эти пропуски — не просто канцелярские ошибки; они искажают статистику о том, кто болеет, кто получает какое лечение и кто выигрывает от новых вмешательств. Между тем в свободном тексте записей — разделе социальной истории и заметок о факторах риска — часто упоминаются сведения о происхождении пациента вскользь. Авторы задали вопрос, можно ли превратить эти разрозненные подсказки в неструктурированном тексте в структурированную, согласованную запись о расе, что даст более ясную картину неравенства в здоровье и использовании медицинских услуг.
Обучение компьютеров чтению записей врачей
Команда работала с большой канадской базой первичной медико-санитарной помощи, содержащей записи примерно 400 000 пациентов из более чем 400 клиник. Из неё был отобран репрезентативный образец почти из 4 000 взрослых пациентов, и вручную помечались предложения, которые явно ссылались на расу или этническую принадлежность, с использованием девяти категорий, таких как Black, East Asian, Latin American и Indigenous, а также категории «отсутствует», когда упоминаний не было. Поскольку большинство заметок никогда не упоминают расу, применяли стратегию «активного обучения», при которой начальная модель ИИ отмечала записи, в которых она испытывала наибольшую неопределённость, чтобы человеческие аннотаторы могли сосредоточиться на случаях, наиболее вероятно содержащих информацию о расе.

Создание более справедливых языковых моделей
Исследователи сравнили несколько популярных трансформерных языковых моделей — таких как BERT и его клинические варианты — с собственноручно созданной иерархической сверточной нейронной сетью. В отличие от стандартных моделей, которые рассматривают заметку как одну длинную строку слов, иерархическая модель отражает способ, которым пишут клиницисты: она обрабатывает слова внутри предложений, затем предложения внутри заметки и, наконец, заметки пациента во времени. Команда также экспериментировала с «учётом справедливости» в обучении, добавляя в функцию потерь термы, штрафующие за большие различия в показателях ошибок между расовыми группами, и регулируя, насколько модель «заботится» об ошибках для недопредставленных групп.
Что сработало, а что нет
Иерархическая модель превзошла все трансформерные модели в целом, достигнув очень высокой точности и более сбалансированных показателей по расовым категориям, даже до применения корректировок по справедливости. Напротив, несколько трансформеров показывали хорошие результаты для белых пациентов, но пропускали многие случаи в меньших группах, иногда предсказывая только доминирующую категорию. Добавление ограничений по справедливости существенно помогло некоторым моделям, особенно BERT, сделав их прогнозы как более точными, так и более равномерно распределёнными между группами. Но те же ограничения навредили другим моделям, включая иерархическую, а в одном клиническом трансформере привели к сжатию предсказаний обратно к большинственной категории. Исследование также выявило устойчивые различия на пересечениях расы, пола и возраста: индейские, смешанного происхождения и некоторые подгруппы азиатского и латиноамериканского происхождения оставались самыми трудными для классификации.
Что это показывает о смещениях
Поскольку модель с наилучшими показателями могла надёжно обнаруживать информацию о расе, когда она присутствовала, авторы утверждают, что основная проблема — не в отсутствии сигнала в заметках, а в том, как модели и наборы данных взаимодействуют с долгосрочными структурными неравенствами. Смещения проникали через недопредставленность определённых групп, через паттерны в том, как клиницисты описывают разных пациентов, и даже через процесс активного обучения, который выбирал, какие заметки маркировать. Обучение с учётом справедливости сократило некоторые различия, но не смогло полностью преодолеть эти исходные проблемы, а его эффект сильно зависел от архитектуры модели.
Вывод для пациентов и клиницистов
Эта работа демонстрирует, что технически возможно создать языковые модели, которые с высокой точностью и большей справедливостью восстанавливают информацию о расе из клинического текста, особенно когда архитектуры учитывают многослойную структуру медицинских заметок. В то же время она подчёркивает, что одни только алгоритмы не устранат неравенства, корни которых лежат в практике документирования и в самой системе здравоохранения. Чтобы ИИ способствовал более справедливой медицине, принцип справедливости должен быть встроен в каждый этап — от того, как собираются и отбираются данные, до того, как модели обучают, аудируют и используют — одновременно с улучшением практики фиксации и применения социальной и демографической информации в учреждениях здравоохранения.
Цитирование: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9
Ключевые слова: клиническая обработка естественного языка, алгоритмическая справедливость, электронные медицинские записи, равенство в здравоохранении, данные о расе и этнической принадлежности