Clear Sky Science · zh

在接近真实情境下评估重症监护时间序列缺失数据的插补策略

· 返回目录

为什么补全数据空缺对重症病人很重要

在现代重症监护病房,每一次心跳、呼吸和血压波动都会被以连续数字流的形式记录下来。然而在现实中,这些数据流常常有缺口:传感器脱落、病人离床去做检查、设备短暂关闭等。当医生或计算机用这些不完整的记录来预测病人病情或指导治疗时,我们如何“填补”这些缺失片段会悄然改变数据所呈现的故事。本研究提出了一个具现实意义的问题:在多种填补策略之间——从简单的直线插值到最先进的人工智能——哪些方法在真实 ICU 中常见的缺失情形下表现最好?

Figure 1
Figure 1.

更仔细地审视 ICU 的生命体征

研究者利用了 MIMIC-IV,这是一个来自美国医院的大型公开去标识化 ICU 住院记录数据库。他们关注 26,167 次成人住院记录,考察入 ICU 后的前 48 小时,追踪四个在床旁持续监测的生命体征:心率、血氧、呼吸频率和平均动脉压。为保持信号的现实性,显然不可能的读数被剔除,所有测量值汇总为每小时一次。任何某小时对某一生命体征没有记录的情况都被视为缺失。虽然总体上只有约 4% 的数值缺失,团队发现这些缺口并非随机分布——它们往往聚集在 48 小时窗的后半段,有时还会同时影响多个生命体征。

如何重现真实世界的数据缺口

作者没有编造完全人工的缺失模式,而是构建了三种情景,灵感来自原始数据中的观测和临床床旁常见的情况。第一种情景是随机删除单个读数,模拟偶发的测量丢失。第二种情景是同时消失 1 到 3 小时的区段,覆盖所有四个生命体征,代表病人离开监护仪的时段——例如做影像检查时。第三种情景是连续 4 小时内某一单一生命体征(例如血压)被移除,反映传感器故障或探头移位。每种情景约移除 30% 的数据,对任何试图重建原始曲线的方法都构成严峻考验。

老方法与现代机器智能的对决

研究团队随后将一大批重建方法相互比较。简单的常用方法包括用病人的平均值填补每个缺口、用最后观测值向前填充,或在相邻已知点之间做直线插值。更复杂的统计工具尝试从其他生命体征预测缺失值,但在这样做时它们必须平坦化时间维度,把每小时当作表格中的一行来处理。在谱系的另一端是深度学习模型——Transformer、循环网络和生成模型——这些模型能够显式学习随时间和变量之间的模式。所有模型在随机隐藏 30% 数值的数据上进行训练,然后在上述三种掩码情景下进行测试。性能以其重建结果偏离原始数值的程度来评判,并特别关注对管理循环系统至关重要的平均动脉压的误差。

Figure 2
Figure 2.

什么方法什么时候有效、效果如何

总体而言,最复杂的模型——尤其是一种基于 Transformer 的方法和一种生成对抗网络——在平均误差上表现最好,尤其是在缺口较短或分散时。然而,朴素的直线插值法表现出人意料的强劲,在许多情形下接近这些神经网络模型。忽视测量顺序的统计工具(如随机森林和多重插补链式方程)尽管复杂,却落后于部分时间感知的方法。缺口的形状也很重要:当值是随机缺失时,所有方法的表现看起来更好,这会给其准确性一个过于乐观的印象。记录中较长的连续空白,尤其是跨越数小时或单一传感器失效的情况,证明更难被正确填补。在这些更具挑战性的情形下,最好的深度学习方法退化得更平滑,但转换为实际血压单位时的改进往往有限。

这些发现对床旁决策的意义

在日常血压范围内,顶尖深度学习模型与简单插值法之间的差异常常只有几毫米汞柱——通常不足以改变医生的临床决策。然而所有方法(包括最先进的)在血压非常低或非常高时都表现不佳——这恰恰是精确监测最重要的时刻。研究得出的结论是,选择如何处理 ICU 的缺失数据,与其说是选算法,不如说是理解缺口如何发生以及在哪里发生。复杂模型在处理更长或更复杂缺口时能带来增量收益,但对于许多实际用途而言,简单且透明的方法可能已经足够。关键在于,更好的缺失填补并不自动保证更好的预测模型;未来的工作必须检验这些重建选择如何影响真实的临床决策流程。

引用: Poette, M., Mouysset, S., Ruiz, D. et al. Benchmarking imputation strategies for missing time-series data in critical care using real-world-inspired scenarios. Sci Rep 16, 8116 (2026). https://doi.org/10.1038/s41598-026-39035-z

关键词: ICU 时间序列, 缺失数据, 插补方法, 深度学习, 生命体征