Clear Sky Science · zh
基于XGBoost与遗传算法的可解释算法设计,用于预测COVID-19患者住院需求
这对日常护理为何重要
在COVID-19大流行期间,医生常常需要迅速决定谁需要住院床位、谁可以安全在家康复。本文描述了一种旨在帮助做出该决策的计算机工具。它试图结合两项关键特性:准确识别高风险患者的强大性能,以及医生可以信任并实际使用的清晰、简明的解释。
将病历转为早期预警
研究人员分析了伊朗一所医院在2020年4月至2021年3月期间收治的1,278名成年COVID-19患者的病历。对每位患者收集了27项信息,包括年龄、血氧水平、如C反应蛋白和D-二聚体等血液检测、发热或呼吸短促等症状,以及糖尿病或高血压等既往疾病。仅保留了具有可靠实验室或影像学证据的COVID-19记录且数据相对完整的病例。团队对数据集进行了仔细清洗,采用统计方法填补部分缺失值,去除明显错误,然后将数据分为用于模型构建和测试的独立组。

构建强大的预测引擎
系统的核心是一种名为XGBoost的机器学习方法,它善于在复杂数据中发现模式。该工具从既往患者中学习哪些测量组合倾向于表明需要住院护理。对新数据进行100次测试时,其区分高风险与低风险患者的曲线下面积为0.85,表明在对患者是否更可能需要住院的排序上表现出色。它大约识别出四分之三真正需要住院的患者,并在九成左右的不需要住院的人中给出正确的安慰。与更传统的方法——如逻辑回归、随机森林、一个简单的神经网络及另一种基于树的方法LightGBM相比,XGBoost在准确性和可靠性上提供了最佳平衡。
从黑箱到医生可理解的规则
纯统计模型可能显得像黑箱:它们给出风险评分,但没有对人类友好的理由。为了解开这个黑箱,团队加入了第二层,将模型行为转化为简短、易读的规则,格式为“如果满足这些条件,则可能需要住院”。他们首先训练了一组仅使用少数条件的小决策树,然后将这些树中的每一条路径视为候选规则。使用一种受进化启发的优化方法——遗传算法——对这些规则进行剪裁和精炼,仅保留那些既准确又适用于足够多患者、因而有用的规则。最后,来自相关专科的十位医生对规则进行评级,仅保留医学上合理且清晰的规则。该过程产生了40条最终规则,其中20条指向住院建议,20条指向安全的门诊照护。

模型学到的风险要点
当研究人员探查哪些测量最重要时,一小组指标脱颖而出。低血氧饱和度、高C反应蛋白、较大年龄、D-二聚体升高、高铁蛋白和低淋巴细胞百分比对预测影响最大——这与临床一线经验一致,即血氧水平以及炎症或凝血迹象至关重要。糖尿病、CT上明显的肺部受累和呼吸短促等情况也发挥作用,但相对不那么核心。像咳嗽或肌肉酸痛等常见症状对是否需要住院贡献较小。团队还检查了男女、年轻与年长患者以及有无重大慢性病患者间的表现差异,差异较小且无统计学意义,表明至少在该数据集中,该工具在这些群体间表现较为公平。
这在未来暴发中如何发挥作用
在实际应用中,该系统将分两步工作。第一步,XGBoost模型根据患者的基本信息、生命体征和常规血检计算住院风险。第二步,该工具查找是否有一条专家认可的规则与该患者匹配——例如某种低血氧、炎症标志物升高和年龄的组合。如果找到与模型预测一致的匹配规则,工具将把该规则呈现给临床医生,作为建议决策的理由。作者认为,这种二段式设计——准确的预测加上简单、经审查的规则——可以提高人工智能在实际门诊中的可接受性。由于规则生成过程是模块化的,类似系统可使用本地收集的数据快速重新训练以应对新的传染病,帮助医院在未来的卫生危机中对患者进行分诊并管理稀缺资源。
引用: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6
关键词: COVID-19 分诊, 住院预测, 可解释人工智能, 临床决策支持, 医疗保健中的机器学习