Clear Sky Science · zh

从机器学习模型输出分数估算比值比：可能性与局限性

2026-02-16 · 返回目录

这对健康与人工智能为何重要

医生和公共卫生研究人员越来越多地借助人工智能来发现环境因素（例如温度或空气污染）如何影响我们的健康。但尽管现代机器学习工具在预测谁可能生病方面非常强大，它们常常无法回答临床医生和政策制定者更关心的一个更基础的问题：某种暴露在多大程度上提升或降低了风险？本研究填补了这一空白，展示了如何将流行的机器学习模型那种不透明的输出，转换为在医学和流行病学决策中广泛使用的熟悉比值比。

从黑箱分数到可理解的风险

在传统流行病学中，一种称为逻辑回归的主力方法将暴露（例如寒冷天气）与健康结局（例如住院）联系起来，同时控制年龄或污染等其他因素。其主要优点是可解释性：它直接给出比值比，说明某一组人患病的赔率相较另一组高多少倍（或低多少倍）。现代机器学习方法，如随机森林和梯度提升，能够捕捉数据中更复杂的模式，但它们通常返回的仅是分数，缺乏直接的风险含义，因此难以用临床可信的语言报告结果。作者的目标是将这两类方法连接起来。

从机器学习模型读取风险的新方法

研究人员提出了十种不同的方法，从机器学习分类器产生的分数中恢复比值比。其中八种“混合”估计量以模型的原始或校准分数为起点——这些分数介于零到一之间，反映每个人出现结局的可能性——然后将这些分数的简单汇总乘以由传统逻辑回归模型导出的调整因子。该因子用于调整暴露组与未暴露组在年龄、季节和其他背景变量上的差异。另两种估计量依赖部分依赖函数，这个工具实质上在问：“如果所有人的暴露水平为A与为B，而其他条件保持观测到的状态，模型会预测什么？”通过比较这些预测，作者获得了反映机器学习模型对数据看法的基于模型的比值比。

在真实健康问题上测试这些方法

为了检验这些思路的有效性，团队将其应用于三种模型——逻辑回归、随机森林和梯度提升——并使用来自以色列的两组大型流行病学数据集。一个数据集随访因呼吸或心血管问题住院的老年人，关注异常低温是否增加入院的可能性。另一个追踪了超过16万名婴儿，检验更高的产前温度是否与两岁时超重有关。对于每一组数据和模型的组合，他们计算了十个比值比估计及其不确定区间，并将结果与标准逻辑回归的结果进行比较，将其作为实用基准。

哪些机器学习工具表现最好

研究的一个关键步骤是“校准”——重塑机器学习模型的原始分数，使得例如被赋予20%风险的人群中约有五分之一真实发生结局。作者测试了三种常见的校准方法，发现一种称为等距回归（isotonic regression）的简单技术常常使随机森林和梯度提升的分数最接近良性概率。当这些校准后的分数输入他们的比值比估计器时，出现了一个重要模式：来自梯度提升的比值比通常与逻辑回归的结果一致，约87%的估计落在逻辑模型95%置信区间内，而且经常产生更窄的不确定区间。相反，随机森林表现出不稳定的行为——许多预测塌缩到0或1，即使在校准之后，也使若干比值比估计不稳或产生误导性结果。

这对公共卫生中使用人工智能的意义

该研究表明，在环境健康研究的常见条件下，可以在不牺牲可解释性的情况下利用现代机器学习模型的预测能力。配合谨慎的校准和所提出的估计方法，梯度提升模型可以提供可与经典逻辑回归相比、且有时更精确的比值比。然而，并非所有机器学习算法都同样适合这一任务：尤其是随机森林，在用于估计效应量时可能需要额外的谨慎或替代策略。对政策制定者和临床医生而言，关键结论是：先进的人工智能方法不必永远是黑箱——如果谨慎使用，它们可以产生清晰、熟悉的风险度量，从而支持现实世界的决策。

引用: Nirel, R., Bauman, N., Morin, E. et al. Estimating the odds ratio from the output scores of machine learning models: possibilities and limitations. Sci Rep 16, 8922 (2026). https://doi.org/10.1038/s41598-026-38150-1

关键词: 比值比, 机器学习, 流行病学, 风险估计, 温度与健康