Clear Sky Science · ru

Сравнение децентрализованного машинного обучения и клинических моделей ИИ с локальными и централизованными альтернативами: систематический обзор

· Назад к списку

Почему важно делиться медицинской информацией, не передавая данные

Современная медицина всё активнее полагается на искусственный интеллект для раннего выявления заболеваний, подбора оптимального лечения и прогнозирования групп повышенного риска. Однако для создания лучших ИИ‑инструментов требуются огромные объёмы пациентских данных, а больницы не могут просто объединять свои записи из‑за строгих правил конфиденциальности и этических ограничений. Эта статья обобщает более десяти лет исследований по «децентрализованному» обучению — способам, позволяющим медицинским учреждениям совместно обучать ИИ, не передавая исходные данные пациентов — и задаёт практический вопрос: насколько хорошо эти методы, сохраняющие приватность, работают по сравнению с традиционными подходами?

Новые способы учиться на данных пациентов при защите приватности

В традиционном централизованном обучении больницы копируют все свои данные в одну большую базу и обучают модель там. При локальном обучении каждое учреждение строит собственную модель на своих данных, без сотрудничества. Децентрализованное обучение предлагает промежуточный путь. В федеративном обучении, например, каждая клиника обучает модель локально, затем передаёт лишь параметры модели (что-то вроде «регуляторов» в нейронной сети), которые объединяются в общую модель; записи пациентов при этом не покидают учреждение. Swarm learning устраняет центрального координатора и позволяет учреждениям напрямую обмениваться обновлениями моделей. Другие децентрализованные подходы объединяют предсказания нескольких локальных моделей или распределяют части модели между сайтами. Эти методы тестировали на задачах от обнаружения рака и диагностики COVID‑19 до сердечных заболеваний, диабета, расстройств мозга и психиатрических состояний.

Figure 1
Figure 1.

Что исследователи изучали

Авторы систематически искали в 11 крупных базах данных и просмотрели 165 010 исследований, опубликованных с 2012 по март 2024 года. После удаления дубликатов и работ, не связанных с реальными клиническими решениями, осталось 160 статей. В совокупности эти публикации описывали 710 децентрализованных моделей и 8 149 прямых сравнений их производительности с централизованными или локальными моделями. Большинство работ были посвящены диагностике, но также встречались исследования по сегментации изображений (например, выделение опухолей), прогнозированию исходов — выживаемости или осложнений — и комбинированным задачам. Типы данных охватывали почти все ключевые источники в медицине: электронные истории болезни, КТ и МРТ, рентген, цифровую патологию, кардиологические и нейрофизиологические сигналы и даже генетические данные.

Как методы, сохраняющие приватность, выглядят по сравнению с централизованным ИИ

При сравнении децентрализованных моделей с централизованными, обученными на объединённых данных, централизованное обучение обычно оказывалось немного лучше. Особенно выражённый выигрыш наблюдался по «пороговым» метрикам, таким как точность и распространённый показатель для изображений — коэффициент Dice: централизованное обучение выигрывало примерно в трёх четвертях случаев и по величине преимущества это считалось умеренным или большим. Однако по ранжирующим метрикам — например, площади под ROC‑кривой (AUROC), отражающей способность модели упорядочивать пациентов по риску — децентрализованные и централизованные модели были значительно ближе, с небольшим преимуществом за централизованным обучением. Важно, что когда обе модели достигали того, что авторы называют «клинически приемлемым» уровнем (оценка не менее 0,80), типичный прирост централизованной модели был скромным: часто менее 1–1,5 процентных пункта. Во многих ситуациях это означало «отлично против приемлемо», а не «работоспособно против непригодно».

Почему децентрализованное обучение лучше, чем одиночная локальная модель

Самый убедительный сигнал обзора появился при сравнении децентрализованных моделей с чисто локальными. По всем основным метрикам — точности, AUROC, F1, чувствительности, специфичности и особенно прецизионности — децентрализованные методы почти всегда показывали лучшие результаты, часто с заметным отрывом. В парных сравнениях децентрализованное обучение превосходило локальные модели в более чем 80 % сопоставлений по ключевым показателям, таким как точность, прецизионность и AUROC. Во многих случаях локальные модели не достигали порога 0,80 для клинической полезности, тогда как соответствующая децентрализованная модель уверенно его превышала, повышая чувствительность порой на 27 процентных пунктов. Авторы объясняют это более широким опытом, который приобретают многосайтовые модели: «видя» паттерны из разных больниц, они реже ошибаются из‑за особенностей конкретного сканера или ведения учёта и лучше улавливают признаки болезни, которые действительно обобщаются.

Figure 2
Figure 2.

Баланс между производительностью, приватностью и практичностью

Обзор делает вывод, что централизованное обучение остаётся золотым стандартом, когда правила конфиденциальности и логистика позволяют объединить данные и когда важна каждая доля процентного пункта в производительности — например, при крайне редких заболеваниях. Тем не менее децентрализованное обучение представляет собой мощную и клинически приемлемую альтернативу в ситуациях, где обмен данными ограничен законами вроде GDPR и Регламента ЕС об ИИ или институциональными политиками. По сравнению с полностью локальным хранением моделей децентрализованные подходы дают значительные улучшения точности и надёжности, при этом данные остаются внутри стен больниц. Авторы настаивают, что в будущих работах следует яснее отчётно описывать использованные техники защиты приватности и вычислительные затраты, чтобы системы здравоохранения могли обоснованно выбирать, когда небольшие компромиссы по производительности оправданы значительными преимуществами в плане приватности и сотрудничества.

Цитирование: Diniz, J.M., Vasconcelos, H., Rb-Silva, R. et al. Comparing decentralized machine learning and AI clinical models to local and centralized alternatives: a systematic review. npj Digit. Med. 9, 174 (2026). https://doi.org/10.1038/s41746-025-02329-z

Ключевые слова: федеративное обучение, медицинский ИИ, конфиденциальность медицинских данных, децентрализованное машинное обучение, клинические прогностические модели