Clear Sky Science · zh

临床引导模型还是基础模型?用电子健康记录预测颈椎退行性脊髓病

· 返回目录

为何尽早识别这种脊柱问题至关重要

颈椎退行性脊髓病(CSM)称呼虽拗口,但对许多老年人而言,它悄然威胁着脊髓功能。它可能以笨拙、拖步行走或排便困难等症状起始,逐步进展为严重残疾甚至瘫痪。医生常常因其症状不明显且与更常见的疾病(如关节炎或腕管综合征)相似而多年未能识别。该研究提出了一个及时的问题:电子健康记录中隐藏的模式能否在正式诊断前数年识别出有发展为CSM风险的人群?哪类人工智能(AI)最适合承担这一任务?

Figure 1
Figure 1.

在老龄化人群中潜伏的疾病

当随年龄发生的磨损导致颈部脊髓管变窄并压迫脊髓时,就会出现CSM。该病在老年人中常见;颈部影像显示,约三分之一的60岁以上人群存在脊髓受压,而其中相当一部分最终会出现症状。然而研究显示,从首次出现体征到确诊,患者往往需要等待两到六年,错失了可通过手术或其他干预措施避免永久性损伤的宝贵时间。随着人口老龄化以及基层诊所患者拥挤、医师接触脊柱疾病机会有限,发展可规模化的早期发现方法的需求正在增长。

将病历转化为预警系统

现代电子健康记录(EHR)记录了详细的诊断、检验、手术及门诊就诊轨迹。研究人员推测,这些轨迹中很可能包含早期CSM的线索——例如反复跌倒、神经电生理检查或物理治疗——在专业脊柱影像检查下达之前就已出现。他们汇集了来自两个大型美国数据集的约200万名患者的数据:一个全国性的保险索赔数据库和一个区域性医疗系统的病历。在这些数据中,他们识别出数万名最终被诊断为CSM的患者,并将其与未被诊断的相似患者进行匹配,构建了大规模的测试平台,检验AI是否能够在6到30个月不同时段之前预测哪些患者将被诊断为CSM。

通用的大型AI与精简的临床引导工具之争

研究团队比较了几种处理EHR数据的机器学习模型。一类是大型“基础模型”——基于transformer的强大系统,最初在数百万份病历上训练以学习医疗数据中的通用模式。另一类是更小的模型,仅基于脊柱专家手工挑选出的497个与CSM高度相关的诊断、操作和药物编码。研究人员采用适用于罕见疾病的统计指标来评估性能,考察在不同预测窗口内,各模型相比随机猜测在识别未来会发展为CSM的患者方面提升了多少。

在本地的准确性与跨机构的可靠性

当模型在同一大型、多样化的保险数据集中训练并测试时,最大的基础模型通常表现最佳,准确性比无信息分类器高出约六到七倍。然而,当模型在独立的医疗系统数据上评估时,情形发生了变化:更简单、由临床知识引导的模型通常优于复杂的transformer模型,有时在预测哪些患者即将被诊断为CSM方面,其表现可比随机机会高出多达13倍。反向实验——在单一医疗系统上训练并在全国性数据集上测试——也得出了类似结论:较小的临床聚焦模型在不同机构间的转移性更好。分组分析还显示,所有模型在就诊频率较高的患者中表现最好,这也对那些就诊较少的人群公平性提出了疑问。

Figure 2
Figure 2.

对患者与医生的意义

研究结果表明,AI有可能在诊断前多达两年半识别出高风险CSM人群,从而可能引导临床医生更早开展神经学检查和脊柱影像学评估。然而,研究也凸显了一种权衡:大型、复杂的AI模型在其训练数据上可能表现出色,但基于临床专业知识精心设计的小型模型在转入新医院和不同患者群体时可能更可靠。对患者而言,结论既令人鼓舞又需谨慎:合理利用常规健康数据有望缩短许多CSM患者漫长的诊断旅程,但成功不仅取决于强大的算法,还依赖于周全的模型设计、在多样化环境中的严谨测试以及对公平性的关注,以确保早期发现的收益能被广泛共享。

引用: Yakdan, S., Warner, B., Ghogawala, Z. et al. Clinically-guided models or foundation models? predicting cervical spondylotic myelopathy from electronic health records. npj Digit. Med. 9, 153 (2026). https://doi.org/10.1038/s41746-026-02337-7

关键词: 颈椎退行性脊髓病, 电子健康记录, 机器学习, 基础模型, 早期诊断