Clear Sky Science · zh
炎症性肠病血清生物标志物的插补方法
这项研究对患者和医生的重要性
测量炎症性肠病(IBD)患者血液中抗体的检测,越来越多地被用于辅助诊断、区分克罗恩病与溃疡性结肠炎,甚至提示疾病可能的发展轨迹。但在现实世界中,许多这些血液测量缺失,因为样本难以采集,患者难以随访。本研究提出了一个看似简单却影响重大的问题:当这些血液检测的关键部分缺失时,怎样填补空白才能让医生和研究人员仍然信赖结果?
血液检测数据中的隐性空缺
IBD 包括克罗恩病和溃疡性结肠炎,由消化道的慢性炎症驱动。血液中针对酵母、细菌及其他靶标的某些抗体,已成为识别 IBD、区分其亚型并有时在症状出现前多年预测疾病的有力线索。然而,从数千名患者收集大型血清学数据集往往很混乱:样本可能丢失,某些检测可能失败,或患者可能缺席随访。传统的粗暴方法,比如丢弃任何含缺失值的患者,会浪费信息并可能使结果产生偏差,使某些标志物与疾病的关联被低估或高估。
数据缺失的不同机制
作者首先仔细重建了血液检测值可能缺失的多种情形。在一种情形下,值完全随机地消失,就像在数据表中抛硬币决定。在另一种情形中,缺失取决于我们可见的其他信息——例如病情较轻的患者可能不太可能进行某些检测。在最困难的情形中,缺失取决于我们未观察到的值本身——例如极高或极低的抗体水平更可能未被记录。研究团队使用三个大型 IBD 队列,生成了数千个具有不同缺失比例的数据集版本,缺失比例从仅 5% 到高达 40% 的血检条目为空白。
填补空白的现代工具
随后他们比较了用于填补空白的多类计算方法——即插补方法。一些方法,如 MICE(链式方程的多重插补)及相关的“迭代插补器”,通过循环使用其他变量来反复预测每个缺失值,直到整个表被填满。其它方法使用更灵活的机器学习引擎,包括随机森林、从相似患者借取信息的最近邻方法,以及称为自编码器和变分自编码器的深度学习模型,这些模型学习数据的压缩摘要并从这些摘要重建缺失部分。对每种设置,研究者创建了多个完成的数据集以捕捉不确定性,并从三个角度评估性能:填充后的数值与原始值的接近程度、标准统计检验恢复已知疾病—抗体关联的能力,以及预测模型区分 IBD 亚型的准确性。
在不同条件下表现最好的方法 
Figure 1.

没有单一方法成为通用冠军。当只有一小部分数据缺失且缺失模式较为温和时,基于贝叶斯回归、随机森林或最近邻的迭代方法往往能给出最准确的重建,并保留完整数据中观察到的关联强度。随着更多数值消失,特别是在更棘手的缺失模式下,基于自编码器的深度学习方法变得越来越有吸引力。这类模型更擅长保留数据的整体结构,并使预测性能接近使用完整信息时的水平。总体而言,简单地丢弃不完整样本的做法表现更差:它削弱了信号、降低了统计功效,并且在控制假阳性错误方面没有任何优点。
为不同任务选择合适工具 
Figure 2.

这项研究的结论更偏向实用而非强制性建议。对于以严谨统计推断为优先的项目——例如估计特定抗体与克罗恩病之间的关联强度——遵循多重插补原则的方法(如 MICE 和某些迭代插补器)是合乎逻辑的首选。它们与在插补数据集之间合并结果的既定规则配合良好,并提供校准良好的不确定性估计。相反,当主要目标是预测——例如训练机器学习模型对患者进行分类——迭代插补器和基于自编码器的方法经常表现突出,尤其是在缺失值比例较高时。通过展示不同方法在不同缺失水平和分析目标下的优势,该工作为研究人员选择插补策略提供了路线图,以同时保留血清数据的科学信号和临床实用性。
通俗的结论
对于生活在 IBD 中的患者以及照料他们的临床医生和科学家来说,结论既令人放心又富有细微差别:即使血液检测记录满是空白,精心选择的计算方法也能重建出足够的图景,使分析保持可靠。没有一刀切的解决方案,但有清晰的规律——当数据大多完整时,较简单的迭代方法表现良好;当缺口较大且更复杂时,更灵活的深度学习工具更为合适。使用这些方法而不是丢弃不完美的数据,有助于防止误导性结论并支持建立在血清生物标志物之上的更准确的诊断、疾病监测和治疗研究。
引用: Boodaghidizaji, M., McGovern, D.P.B. & Li, D. Imputation methods for serologic biomarkers in inflammatory bowel disease. Sci Rep 16, 11160 (2026). https://doi.org/10.1038/s41598-026-41587-z
关键词: 炎症性肠病, 血清生物标志物, 缺失数据, 多重插补, 机器学习