Clear Sky Science · zh

用于 COVID-19 风险预测的具有新型深度学习模型的混合特征选择

· 返回目录

为何预测 COVID-19 风险仍然重要

尽管世界正逐渐学会与 COVID-19 共存,病毒并未消失。新变种不断出现,医院仍可能承受压力,易感人群依然面临较高的重症或死亡风险。因此,医生需要快速且可靠的方法来评估感染患者发展为重症的可能性。本文提出了一种新型计算模型,利用医院数据和先进的人工智能更准确地预测 COVID-19 风险,可能帮助临床人员决定谁需要更密切的监测、早期干预或重症护理。

从原始病历到可用信号

研究以一个非常大的临床数据集为起点:超过一百万名匿名患者,每位由 21 个简单且主要为是/否的特征描述,如年龄组、基础疾病及其他风险因素。真实世界的医院数据通常很杂乱,因此第一步是对其进行“清洗”。作者采用了一种称为对数缩放的数学技巧,压缩极端值并拉开非常小值的群集。这种变换使数据更稳定,更易为算法处理,降低了异常数值或稀疏指标误导模型的可能性。

挑选最有信息量的特征

并非所有记录的变量对预测同等有用,过多弱信号反而会混淆人工智能系统。研究者因此进行特征选择,即过滤掉较少用的信息,保留最有信息量的因素。他们的混合方法结合了两种思路:一项度量考察特征在高风险与低风险患者间的区分能力,另一项检查特征彼此之间的重叠强度。通过在同一尺度上平衡这两种视角,该方法偏向于既有辨识力又不冗余的特征。这种精简加快了训练速度,减少过拟合,并使模型聚焦于最具临床相关性的模式。

Figure 1
Figure 1.

将模式识别与模糊推理相结合

论文的核心是一种称为模糊-深度克罗内克循环神经网络(Fuzzy-Deep Kronecker Recurrent Neural Network,简称 Fuzzy-DKRNN)的新预测引擎。它融合了若干互补技术。其一组件——深度克罗内克网络——旨在发掘临床数据中紧凑且结构化的隐含模式。另一组件——深度循环网络——擅长捕捉依赖关系与趋势,例如当一组因素随时间组合影响风险时。在这些之上,作者叠加了模糊逻辑系统。模糊规则不是仅做硬性的是/否判断,而是表达诸如“若若干风险指标处于中等偏高,则患者可能为高风险”的语句。每条规则带有一定的置信度,使模型能够处理医学中常见的不确定性与灰色地带。

模型表现如何?

作者将 Fuzzy-DKRNN 模型与若干最先进的替代方案进行了严格对比测试,这些替代方案包括基于胸片影像的系统、传统机器学习和其他深度学习方法。使用准确率、精确率、召回率和 F1 分数等标准衡量,他们的方法持续领先。在最佳配置下,模型总体上约能正确分类 91% 的病例,既能较好地检测出将发展为重症的患者,也能避免对非重症患者发出不必要的警报。当训练数据量和内部验证设置变化时,这些优势仍然存在,表明该方法是稳健的,而非针对单一情形的过度调优。

Figure 2
Figure 2.

对患者与医院意味着什么

简而言之,这项工作表明,结合谨慎的数据清洗、关键风险因子的智能筛选以及深度学习与模糊逻辑的混合方法,可以从常规临床信息中产生更可靠的 COVID-19 风险预测。这样的工具不会取代医生,但可作为早期预警助手——标记需要更密切关注的患者、指导如重症床位等稀缺资源的分配,并最终有助于减少可预防的死亡。相同策略也可调整应用于需要从复杂临床数据中早期发现风险的其他疾病。

引用: P, G.S., Kathiravan, M., Shanthi, S. et al. Hybrid feature selection with novel deep learning model for COVID-19 risk prediction. Sci Rep 16, 4106 (2026). https://doi.org/10.1038/s41598-026-35013-7

关键词: COVID-19 风险预测, 深度学习, 模糊逻辑, 临床决策支持, 医疗人工智能模型