Clear Sky Science · zh
用于准确预测接受抗逆转录病毒治疗患者HIV进展的正则化回归模型:一项比较研究
这项研究为何对艾滋病毒感染者重要
对于许多正在接受抗逆转录病毒治疗(ART)的人来说,一个迫切的问题是他们的健康状况随时间会如何变化。医生掌握的信息非常丰富——年龄、身体测量值、血液检测和社会环境等——但将这些信息转化为可靠的预测,判断谁会保持健康、谁可能进展为严重疾病,并非易事。本研究检验了多种先进的统计工具,以确定哪些方法最能预测HIV进展,目的是帮助临床医生把注意力集中在最需要额外关注的患者身上。

随访患者过程
研究者分析了2020年至2023年间在尼日利亚奥孙州一所教学医院开始接受ART的482名成年HIV患者的病历。他们追踪患者从开始治疗起进入世界卫生组织定义的更严重HIV疾病分期(III或IV)所需的时间。与此同时,研究考察了广泛的信息集:年龄、性别、体质指数、身高和体重、血液病毒载量、教育程度、婚姻和职业状况及居住地。由于HIV确切感染日期通常未知,研究以开始ART的第一天作为生存时间的起点,这是此类研究中的常用做法。
当许多风险因素相互重叠时
现代HIV护理会产生大量重叠的信息。例如,体重、身高和体质指数彼此紧密相关;如果同时全部使用,标准统计方法可能变得不稳定并给出误导性结果。研究团队通过计算方差膨胀因子确认了这一问题,结果显示某些测量值高度交织。这会使判断哪些因素真正重要变得困难,并可能导致在一组患者中看似准确的模型在另一组患者中失效。
应对复杂数据的新工具
为了解决这些问题,研究比较了四种“正则化”回归方法——岭回归(Ridge)、LASSO、自适应LASSO(Adaptive LASSO)和弹性网(Elastic Net)。这些技术有意缩小不太重要变量的影响,有些甚至可以完全剔除它们,从而在预测变量高度相关时保持模型稳定。研究者首先测试了去除最重叠变量(体重)时的情况,然后测试了保留所有变量时的情况。他们用多种指标评估每个模型:模型对患者风险的排序能力、概率预测的准确性,以及在拟合优度与简洁性之间的平衡程度。

模型揭示的风险因素
在不同方法之间,关于哪些因素与较高的疾病进展风险相关,出现了较为一致的结论。较大年龄和较高的病毒载量往往与更差的结局相关,而男性、受教育程度更高、就业以及更健康的体质指数则倾向于预示更好的生存。一些模型还突出了体型测量值和婚姻状况,但这些因素的具体作用取决于如何处理重叠变量。重要的是,正则化方法大幅降低了在标准生存模型中出现的不稳定性,证实在复杂的HIV数据中它们能够提供更清晰、更可靠的估计。
为任务选择合适的工具
研究表明没有单一方法适用于所有目标。当主要目标是挑选出少数最重要的预测因子并保持模型易于解释时,自适应LASSO在去除最重叠变量后表现最佳。它在突出关键风险因素的同时给出了最准确且校准良好的预测。然而,当保留所有变量——包括高度相关的变量——时,弹性网总体上提供了最强的预测性能并在高度重叠的情况下保持稳定。岭回归在保留所有预测变量的同时也能较好地保持预测准确性。用通俗的话说,这些结果表明,医生和卫生规划者可以根据他们更需要一份明确的风险驱动因素清单,还是需要对接受ART的患者未来HIV进展做出最有力的预测,来选择不同的工具。
引用: Owoade, G.O., Okewole, D.M., Nziku, C.K. et al. Regularized regression models for accurate prediction of HIV progression in ART patients: a comparative study. Sci Rep 16, 10251 (2026). https://doi.org/10.1038/s41598-026-41445-y
关键词: HIV 进展, 抗逆转录病毒治疗, 生存期预测, 正则化回归, 弹性网