Clear Sky Science · zh

将大型健康监测数据分割并重组以拟合逻辑回归:在 BRFSS 上用于糖尿病风险预测的应用

· 返回目录

为什么大型健康调查对糖尿病很重要

每年受糖尿病影响的人数在增加,但医疗体系往往难以及早识别出高风险人群以预防严重并发症。各国政府收集了包含数百万成年人的大型健康调查,但这些庞大的文件在普通计算机上难以分析。这项研究展示了一种巧妙的分割并重组数据的方法,能够把这些难以处理的调查转化为实用的糖尿病风险预测工具,而无需超级计算机。

Figure 1. 将庞大的健康调查分成更小的部分,各自建模后再重组,从而高效预测糖尿病风险。
Figure 1. 将庞大的健康调查分成更小的部分,各自建模后再重组,从而高效预测糖尿病风险。

把大数据切成易处理的小块

作者关注一种称为“分割并重组”(divide and recombine)的技术,它把海量数据当作一条面包,可以切片然后重新拼合。与其对全部数据一次性运行一个庞大的统计模型,他们把数据切成较小的部分,在每一部分上分别拟合相同的预测模型,然后以有原则的方式合并结果。关键思想是,每一片数据都包含关于风险因素与糖尿病关系的信息,这些片段可以用反映信息量的数学权重进行合并。

将方法置于严格检验

为了检验这种切分并合并策略是否可信,团队首先进行了一个基于模拟数据的大型计算实验。他们反复创建了五百万名虚拟患者,每位患者有若干风险因素并且与糖尿病存在已知的“真实”关系。然后他们将传统的全数据分析与在不同切片数下的分割并重组方法进行了比较。结果令人惊讶:分割方法给出的答案几乎相同,误差仅在第四位小数上有所不同,同时将计算时间缩短约一半,内存需求最多降低近九成。

Figure 2. 多个小规模数据模型汇入一个合并模型,产生与全数据分析相同的糖尿病风险模式。
Figure 2. 多个小规模数据模型汇入一个合并模型,产生与全数据分析相同的糖尿病风险模式。

在真实的美国人群上测试该方法

接着,研究人员使用了行为危险因素监测系统(Behavioral Risk Factor Surveillance System, BRFSS),这是一个长期运行的美国电话调查,追踪健康习惯和疾病情况。他们提取了 2014 到 2024 年的 40 岁及以上成年人的数据,总计近 250 万人,包含年龄、体重、锻炼、吸烟、收入、自评健康等 16 项因素。在对数据进行仔细清洗并打乱受访者顺序后,他们把调查拆成数十个可处理的小块,在每块上拟合糖尿病风险模型并重组结果。他们还运行了两种使用全量数据的标准方法,以检验结果是否一致。

数据揭示的糖尿病风险模式

分割并重组的结果与传统分析几乎完全一致,证实了这一捷径不会扭曲科学结论。模型重现了已知的模式:糖尿病的几率随年龄显著上升,肥胖人群的发病几率比正常体重者高数倍。自评一般或差的人、不锻炼者或当前吸烟者的患病几率也更高。相反,更高的收入和更长的受教育年限即便在控制体重和生活习惯后仍与较低的患病几率相关,指出了社会条件的作用。调查中一些慢性疾病与糖尿病呈现反向关联,这被作者归因于横断面一次性快照研究中的生存偏差和测量怪象,而非真实的保护效应。

这对日常健康决策意味着什么

对非专业读者而言,主要信息是现有的国家级健康调查可以在普通计算机上被转化为可靠的糖尿病风险计算器。分割并重组策略保持了传统方法的统计质量,同时使处理数百万条记录变得可行。这让资源有限的公共卫生机构和研究人员更容易追踪高风险人群,将预防项目针对老年肥胖和低收入人群,并随着新调查年份的加入及时更新洞见。该方法不能治愈糖尿病,但能帮助社会更明智地利用数据以预防和管理疾病。

引用: Nayem, M.M.H., Biswas, S.C. Divide and recombine approaches for fitting logistic regression to large-scale health surveillance data: application to diabetes risk prediction in BRFSS. Sci Rep 16, 15980 (2026). https://doi.org/10.1038/s41598-026-46927-7

关键词: 糖尿病风险, 健康大数据, 逻辑回归, BRFSS 调查, 分割并重组