Clear Sky Science · ru
Сравнение стратегий заполнения пропущенных временных рядов в отделении интенсивной терапии на примерах, близких к реальным
Почему заполнение пробелов в данных важно для пациентов в ОРИТ
В современных отделениях интенсивной терапии каждый удар сердца, вдох и импульс кровяного давления фиксируются как непрерывный поток чисел. Но в реальной жизни эти потоки полны дыр: датчики отваливаются, пациенты уходят с кровати на обследования, устройства на время отключают. Когда врачи и алгоритмы используют эти неполные записи для прогноза состояния пациента или принятия решений о терапии, способ «заполнения» отсутствующих фрагментов может тонко менять картину, которую дают данные. В этом исследовании поставлен практический вопрос с большими последствиями: из множества стратегий восстановления — от простых линейных интерполяций до передовых методов искусственного интеллекта — какие работают лучше в тех сценариях пропусков, которые действительно встречаются в ОРИТ?

Более внимательный взгляд на жизненные показатели в ОРИТ
Исследователи использовали MIMIC-IV, большую публичную базу обезличенных записей стационарных случаев в ОРИТ одного американского госпиталя. Они сосредоточились на 26 167 взрослых случаях и проанализировали первые 48 часов после поступления в ОРИТ, отслеживая четыре жизненных показателя, которые непрерывно мониторятся у постели: частоту сердечных сокращений, насыщение кислородом, частоту дыхания и среднее артериальное давление. Чтобы сохранить реализм сигналов, были удалены явно невозможные значения, а все измерения агрегировали по одному значению в час. Любой час без зарегистрированного значения для данного показателя считался пропущенным. Хотя отсутствовало лишь около 4% всех значений, команда обнаружила, что эти пропуски не распределялись случайно — они часто группировались ближе к концу 48-часового окна и иногда затрагивали сразу несколько показателей.
Как воссоздавали реальные сценарии пропусков
Вместо того чтобы придумывать полностью искусственные шаблоны отсутствующих значений, авторы построили три сценария, вдохновлённые наблюдаемыми в исходных данных паттернами и тем, что клиницисты видят у постели больного. В первом варианте отдельные измерения случайным образом удалялись, имитируя случайные потерянные измерения. Во втором исчезали блоки продолжительностью 1–3 часа сразу по всем четырём показателям, что моделировало периоды, когда пациент отсутствует у мониторов — например, во время обследования. В третьем варианте один показатель — например, артериальное давление — удалялся на непрерывный интервал в 4 часа, что отражает отказ датчика или отслоение зонда. В каждом сценарии удалялось примерно 30% данных, что представляло серьёзную проверку для любых методов, стремящихся восстановить исходные кривые.
Старые приёмы против современной машинной интеллекта
Затем команда сопоставила широкий набор методов восстановления. Простые приёмы включали заполнение каждого пропуска средним значением пациента, перенос последнего наблюдения вперёд (last observation carried forward) или проведение прямой линии между ближайшими известными точками. Более продвинутые статистические инструменты пытались предсказать пропущенные значения по другим показателям, но при этом им приходилось «сплющивать» временное измерение и рассматривать каждый час как отдельную строку в таблице. На другом полюсе оказались модели глубокого обучения — трансформеры, рекуррентные сети и генеративные модели — которые явно учат закономерности во времени и между переменными. Все модели обучались на данных, где 30% значений были случайно скрыты, а затем проверялись в каждом из трёх сценариев маскировки. Оценка выполнялась по тому, насколько их восстановленные значения отклонялись от исходных, с особым вниманием к ошибкам в среднем артериальном давлении — ключевом сигнале для управления кровообращением.

Что сработало, когда и насколько
В целом наиболее сложные модели — особенно подход на базе трансформера и генеративная состязательная сеть — показали наименьшие средние ошибки, особенно когда пропуски были короткими или рассеянными. Однако простой метод — линейная интерполяция — выступил впечатляюще хорошо, во многих ситуациях приближаясь к результатам нейронных моделей. Статистические инструменты, игнорировавшие порядок измерений, такие как случайные леса и цепочки уравнений, отставали вопреки своей сложности. Форма пропусков тоже имела значение. Когда значения отсутствовали случайно, все методы выглядели лучше, создавая излишне оптимистичную картину их точности. Длинные непрерывные пропуски в записи, особенно на несколько часов или при отказе одного датчика, оказались гораздо труднее корректно восстановить. В этих более сложных сценариях лучшие методы глубокого обучения деградировали более плавно, чем простые подходы, но выигрыши часто были скромными при переводе в реальные единицы артериального давления.
Почему выводы важны для принятия решений у пациента
Для обычных диапазонов артериального давления разница между топовыми моделями глубокого обучения и простой интерполяцией часто составляла лишь несколько миллиметров ртутного столба — как правило, слишком мало, чтобы изменить решение врача. Тем не менее все методы, включая наиболее продвинутые, испытывали сложности при очень низких или очень высоких значениях давления — именно в те моменты, когда особенно важен тщательный мониторинг. Исследование делает вывод, что выбор способа обработки пропусков в данных ОРИТ так же зависит от понимания того, как и где возникают пробелы, как и от выбора последнего алгоритма. Сложные модели могут дать инкрементальные преимущества, особенно при длинных или сложных пропусках, но простые прозрачные методы во многих практических задачах могут оказаться более чем достаточными. Крайне важно, что лучшее заполнение пробелов само по себе не гарантирует лучшие предиктивные модели; в будущих работах нужно оценивать, как эти решения по восстановлению данных влияют на реальные клинические решения.
Цитирование: Poette, M., Mouysset, S., Ruiz, D. et al. Benchmarking imputation strategies for missing time-series data in critical care using real-world-inspired scenarios. Sci Rep 16, 8116 (2026). https://doi.org/10.1038/s41598-026-39035-z
Ключевые слова: временные ряды ОРИТ, пропущенные данные, методы заполнения, глубокое обучение, жизненно важные показатели