Clear Sky Science · zh

使用机器学习的跑步相关损伤多学科预测

2026-02-06 · 返回目录

这对跑者为何重要

耐力跑是保持健康的最普及方式之一，但近一半的经常跑步者每年会遭遇一次显著的损伤。这些问题会打乱训练、降低生活质量，并带来医疗开销。本研究用最前沿的工具提出了一个务实问题：我们能否把跑者的身体状况、生活方式和训练信息整合到计算模型中，在损伤发生之前发出预警？

关注整个跑者，而不仅仅是鞋子

以往大多数研究试图把跑步损伤与单一因素关联——比如训练量、鞋款或某项力量指标。但现实中的损伤通常源于多种影响因素交织：基因、既往损伤、肌力、运动模式、体格、营养，以及训练负荷随时间的变化。本文研究者建立了一套罕见且细致的数据集，追踪了142名年龄介于14至50岁的竞争性耐力跑者为期一年的情况。对每位跑者收集了骨骼与肌肉的实验室测量、跑步运动学分析、力量测试、体成分扫描、营养数据、与组织健康相关的基因标记，以及详细的每周训练与损伤报告。总计构成了超过六千个每周快照，将跑者的特征与其行为是否导致跑步相关问题联系起来。

教计算机识别损伤风险

有了该数据集，研究团队训练了几类机器学习模型，预测跑者在某一周是否会报告新的跑步相关损伤。部分模型简单且易于解释，如逻辑回归；另一些更灵活但较难解释，如随机森林、提升法、支持向量机和神经网络。研究构建了两种主要的预测任务版本。一种仅使用已有强实证支持的风险因素，例如性别、年龄、既往损伤天数、某些力量与对齐测量、关键训练负荷指标以及精选的基因变体。另一种则加入更广泛的额外探索性因子，以检验当提供更多信息时模型性能是否改进。

模型能做什么与不能做什么

表现最好的方法是称为随机森林的集成方法，在预测每周损伤风险时达到中等水平的准确性（曲线下面积约为0.78）。这一性能略优于早期仅关注训练数据的跑步研究，并与在田径混合群体中报道的较好结果相当。有趣的是，大多数模型并未从简单地加入更多、证据较弱的变量中获益：无论使用精心挑选的变量列表还是更大的完整特征集，其准确性大致相同。一个显著的例外是逻辑回归——一种相对简单的方法，在获得更广泛变量池时显著提升，从较差的表现跃升为相对较好的选手。相比之下，那些依赖强独立性假设的概率模型表现不佳，可能是因为许多风险因素相互相关或相互作用复杂。

当下的局限和未来工具的潜力

尽管设计谨慎，这些模型尚未达到可用于临床或做出确定训练决策的精度。一个主要原因是规模：142名跑者和略多于6000个每周样本，对于如此复杂的问题仍然是小样本，尤其考虑到年龄、竞技水平、常跑距离和路面类型的多样性。研究还依赖自我报告的损伤和一些不常规的测量（如偶发的饮食日记），这可能使短期重要变化模糊化。此外，模型仅在这一组跑者内部进行了测试，因此尚不清楚其对新人群的泛化能力。作者建议，较大、汇聚的数据集，结合可穿戴设备和自动化饮食或睡眠跟踪的数据流，可能提供机器学习模型所需的更丰富、更频繁的信息，从而带来更强、更可靠的预测。

这对日常跑者意味着什么

目前，这项研究并未产生一个随时告诉你何时会受伤的现成应用。相反，它提供了一个蓝图和公开数据集，供其他科学家继续扩展。研究表明，计算机可以从广泛且现实的基因、身体与训练信息混合中学习到有意义的模式，但同时也表明预测跑步损伤本质上很困难。随着未来研究纳入更多跑者、更好的传感器和更深入的分析，这一方向最终可能推动决策支持工具的发展，为跑者提供个性化建议：何时应减量、何时可加量，以及哪些可改变的因素——如力量或营养——值得额外关注以保持无痛跑步。

引用: Wu, H., Brooke-Wavell, K., Barnes, M.R. et al. Multidisciplinary prediction of running-related injuries using machine learning. npj Digit. Med. 9, 213 (2026). https://doi.org/10.1038/s41746-026-02413-y

关键词: 跑步损伤, 机器学习, 运动医学, 损伤预测, 耐力跑