Clear Sky Science · ru
Слабо контролируемый трансформер для диагностики редких заболеваний и субфенотипирования по данным ЭМК с примерами заболеваний легких
Почему важно быстрее находить редкие заболевания
Для семей, столкнувшихся с редкими болезнями, получение точного названия состояния может занимать годы. Симптомы часто расплывчаты, врачи могут видеть лишь единичные такие случаи за карьеру, а существующие тесты не всегда дают однозначный ответ. В этом исследовании рассматривается новый способ использования цифровых следов в электронных медицинских записях, чтобы раньше выявлять два трудно диагностируемых заболевания легких и разделять пациентов на группы с существенно разным прогнозом.

Долгий путь к диагнозу редкого заболевания
Редкие болезни по отдельности встречаются нечасто, но вместе они затрагивают сотни миллионов людей во всем мире. Многие начинаются в детстве и могут представлять угрозу для жизни, если их пропустить. В статье сосредоточены редкие заболевания легких, где повседневные жалобы — одышка или свистящее дыхание — легко принимают за астму или другие распространенные проблемы. В результате дети с такими состояниями, как легочная гипертензия или тяжелые формы астмы, могут посещать многих специалистов и ждать годы, прежде чем получить правильный диагноз, теряя ценное время, когда раннее лечение могло бы изменить течение болезни.
Превращая неструктурированные медицинские записи в подсказки
Современные больницы хранят огромные объемы информации в электронных медицинских записях: коды диагнозов, назначения препаратов, лабораторные исследования и записи врачей. В этих данных скрыты закономерности, которые могут указывать на редкое заболевание задолго до официального постановления диагноза. Но есть загвоздка: только у небольшой части пациентов есть внимательная проверка экспертами, поэтому качественных меток о наличии заболевания мало. Большинство записей содержат лишь грубые, «шумные» сигналы — коды, которые могут отражать особенности кодирования для оплаты, предварительные гипотезы или устаревшие пометки. Традиционные компьютерные модели испытывают трудности в такой среде, поскольку они рассчитаны на обучение по большим наборам чистых, надежных примеров.
Новый способ обучения на несовершенных данных
Авторы представляют WEST — «слабо контролируемый трансформер», который предназначен для обучения на смеси небольшого числа точных меток и множества неточных. Система стартует с двух групп пациентов из Boston Children’s Hospital, у которых могли быть легочная гипертензия или тяжелая астма, отобранных по широким скрининговым кодам. В каждой группе небольшая часть подтверждена специалистами, тогда как остальным присвоены вероятностные оценки старых правил-основных инструментов. WEST использует трансформер — продвинутую архитектуру для поиска закономерностей, изначально разработанную для обработки языка — чтобы преобразовать всю медицинскую историю каждого ребенка в компактный числовой портрет. Важное отличие в том, что модель не воспринимает грубые метки как окончательную истину: после каждого цикла обучения модель обновляет собственные оценки того, кто скорее болен, и возвращает эти уточненные вероятности в следующий раунд, постепенно очищая сигнал.

Что модель обнаружила при изучении заболеваний легких
При проверке на отложенной выборке пациентов, верифицированных экспертами, WEST показал лучшую точность по сравнению с несколькими альтернативами, включая простые правила подсчета кодов, градиентный бустинг и трансформеры, которые либо игнорировали шумные метки, либо принимали их за чистую монету. Для хорошей работы ему потребовалось удивительно немного «золотых» случаев — примерно 100 тщательно проверенных пациентов было достаточно, чтобы сравняться или превзойти другие подходы. Помимо выявления вероятных случаев каждого заболевания, внутренние представления модели естественным образом группировали детей в клинически значимые кластеры. Для легочной гипертензии WEST разделил пациентов на группу с медленным прогрессированием и группу с быстрым, которые продемонстрировали явно разные модели выживаемости в течение пяти лет. Для тяжелой астмы модель выделила пациентов с частыми, опасными обострениями и тех, у кого атак было относительно меньше, что отражало различия в госпитализациях, эпизодах гипоксии и дыхательной недостаточности.
Как это может изменить помощь пациентам
Для неспециалиста ключевой вывод таков: WEST обучается «видеть» сложные паттерны заболеваний в рутинных данных больницы без опоры на огромные идеально маркированные наборы данных. Умело переиспользуя несовершенные сигналы и небольшое количество экспертной оценки, он может точнее выявлять вероятные случаи редких заболеваний и раскрывать скрытые подгруппы с различными рисками. В долгосрочной перспективе такие системы, как WEST, могут сократить диагностическое «одиссею» для детей с редкими заболеваниями легких, направлять врачей к более ранним консультациям специалистов и поддерживать более персонализированный мониторинг и лечение в зависимости от того, как, вероятно, будет развиваться болезнь конкретного пациента.
Цитирование: Greco, K.F., Yang, Z., Li, M. et al. A weakly supervised transformer for rare disease diagnosis and subphenotyping from EHRs with pulmonary case studies. npj Digit. Med. 9, 211 (2026). https://doi.org/10.1038/s41746-026-02406-x
Ключевые слова: диагностика редких заболеваний, электронные медицинские записи, машинное обучение в медицине, легочная гипертензия, тяжелая астма