Clear Sky Science · zh

基于XGBoost与遗传算法的可解释算法设计，用于预测COVID-19患者住院需求

2026-02-23 · 返回目录

这对日常护理为何重要

在COVID-19大流行期间，医生常常需要迅速决定谁需要住院床位、谁可以安全在家康复。本文描述了一种旨在帮助做出该决策的计算机工具。它试图结合两项关键特性：准确识别高风险患者的强大性能，以及医生可以信任并实际使用的清晰、简明的解释。

将病历转为早期预警

研究人员分析了伊朗一所医院在2020年4月至2021年3月期间收治的1,278名成年COVID-19患者的病历。对每位患者收集了27项信息，包括年龄、血氧水平、如C反应蛋白和D-二聚体等血液检测、发热或呼吸短促等症状，以及糖尿病或高血压等既往疾病。仅保留了具有可靠实验室或影像学证据的COVID-19记录且数据相对完整的病例。团队对数据集进行了仔细清洗，采用统计方法填补部分缺失值，去除明显错误，然后将数据分为用于模型构建和测试的独立组。

构建强大的预测引擎

系统的核心是一种名为XGBoost的机器学习方法，它善于在复杂数据中发现模式。该工具从既往患者中学习哪些测量组合倾向于表明需要住院护理。对新数据进行100次测试时，其区分高风险与低风险患者的曲线下面积为0.85，表明在对患者是否更可能需要住院的排序上表现出色。它大约识别出四分之三真正需要住院的患者，并在九成左右的不需要住院的人中给出正确的安慰。与更传统的方法——如逻辑回归、随机森林、一个简单的神经网络及另一种基于树的方法LightGBM相比，XGBoost在准确性和可靠性上提供了最佳平衡。

从黑箱到医生可理解的规则

纯统计模型可能显得像黑箱：它们给出风险评分，但没有对人类友好的理由。为了解开这个黑箱，团队加入了第二层，将模型行为转化为简短、易读的规则，格式为“如果满足这些条件，则可能需要住院”。他们首先训练了一组仅使用少数条件的小决策树，然后将这些树中的每一条路径视为候选规则。使用一种受进化启发的优化方法——遗传算法——对这些规则进行剪裁和精炼，仅保留那些既准确又适用于足够多患者、因而有用的规则。最后，来自相关专科的十位医生对规则进行评级，仅保留医学上合理且清晰的规则。该过程产生了40条最终规则，其中20条指向住院建议，20条指向安全的门诊照护。

模型学到的风险要点

当研究人员探查哪些测量最重要时，一小组指标脱颖而出。低血氧饱和度、高C反应蛋白、较大年龄、D-二聚体升高、高铁蛋白和低淋巴细胞百分比对预测影响最大——这与临床一线经验一致，即血氧水平以及炎症或凝血迹象至关重要。糖尿病、CT上明显的肺部受累和呼吸短促等情况也发挥作用，但相对不那么核心。像咳嗽或肌肉酸痛等常见症状对是否需要住院贡献较小。团队还检查了男女、年轻与年长患者以及有无重大慢性病患者间的表现差异，差异较小且无统计学意义，表明至少在该数据集中，该工具在这些群体间表现较为公平。

这在未来暴发中如何发挥作用

在实际应用中，该系统将分两步工作。第一步，XGBoost模型根据患者的基本信息、生命体征和常规血检计算住院风险。第二步，该工具查找是否有一条专家认可的规则与该患者匹配——例如某种低血氧、炎症标志物升高和年龄的组合。如果找到与模型预测一致的匹配规则，工具将把该规则呈现给临床医生，作为建议决策的理由。作者认为，这种二段式设计——准确的预测加上简单、经审查的规则——可以提高人工智能在实际门诊中的可接受性。由于规则生成过程是模块化的，类似系统可使用本地收集的数据快速重新训练以应对新的传染病，帮助医院在未来的卫生危机中对患者进行分诊并管理稀缺资源。

引用: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6

关键词: COVID-19 分诊, 住院预测, 可解释人工智能, 临床决策支持, 医疗保健中的机器学习