Clear Sky Science · zh

比较大型语言模型与机器学习在经皮球囊扩张椎体成形术后并发症预测中的表现

2026-04-01 · 返回目录

为什么这对脆弱脊柱的人很重要

随着越来越多人进入老年，因骨质变薄而引起的疼痛性脊柱骨折变得常见。经皮球囊扩张椎体成形术是一种广泛使用的治疗方法，能迅速缓解疼痛，但也可能导致不希望出现的副作用。本研究探讨现代人工智能工具，包括类似流行聊天机器人的大型语言模型，是否能帮助医生预测哪些患者在治疗后更可能出现这些并发症。

Figure 1. 比较人工智能工具与外科医生，预测哪些脊柱患者在治疗后可能出现骨水泥渗漏或新的骨折。

背部问题及其常用修复方法

骨质疏松性椎体压缩性骨折是指脊柱中变弱的骨骼发生塌陷，通常在轻微跌倒或日常活动后出现。经皮球囊扩张椎体成形术通过插入球囊并用骨水泥填充骨折间隙来稳定受损骨骼，这通常能减轻疼痛并部分恢复被压塌椎体的高度。然而，骨水泥有时会从椎体渗出，数月后也可能在其他椎体出现新的骨折。这些并发症可能引发严重问题，包括神经损伤、肺部并发症和持续性疼痛，因此医生希望在手术前能有工具识别高风险患者。

老派计算模型与人工判断

在大型语言模型兴起之前，研究人员构建了传统的机器学习系统，从患者病历和影像中学习模式。这些系统通过结合许多细节——如年龄、骨密度、骨折形态和骨水泥分布——来估计水泥渗漏或新骨折的概率。与此同时，有经验的脊柱外科医生在审阅相同信息后会做出自己的判断。虽然这些较旧的计算模型常能取得良好表现，但它们需要细致的训练、技术专长和计算资源，这限制了它们在日常医院中的广泛应用。

把聊天机器人拿来测试

在本研究中，研究人员收集了北京一家大型医院中超过一千位接受椎体成形术患者的数据。对每位患者记录了标准的临床和影像信息，然后要求两种大型语言模型、一组传统机器学习模型和两位脊柱外科医生预测是否会发生骨水泥渗漏以及是否会在随后出现新骨折。对聊天机器人进行了两种测试。在零示例（zero shot）设定中，直接给出病例细节并要求预测。在少示例（few shot）设定中，先向模型展示一小组已知结局的示例病例，以观察从这些示例中学习是否能改善其回答。

Figure 2. 不同人工智能系统如何处理患者的脊柱数据，以预测愈合是否安全或会发生骨水泥渗漏或未来骨折。

计算机与外科医生的对与错

在预测术后短期内的骨水泥渗漏方面，大型语言模型表现尚可。它们的结果与表现最好的传统计算模型相近，并比单独工作的外科医生略好。然而，在预测数月后的新骨折方面，聊天机器人表现不佳。它们的初次预测很差，并明显偏向于假设几乎所有人都会出现新骨折。提供示例病例有所帮助，但传统机器学习，特别是一种称为支持向量机的模型，仍然更可靠。聊天机器人在被要求识别并发症的具体亚型时也失败了，例如确切的水泥渗漏位置或下一次会发生骨折的椎体是哪一节。

对医生有帮助，但尚无法独立使用

一个有趣的发现是，外科医生在看到聊天机器人的解释后有时会获益，但仅限于那些模型本身已经表现相当好的任务。当基础预测本来就薄弱时，例如长期骨折的预测，这些解释并未改善医生的决策。总体上，研究表明当前的大型语言模型可为某些椎体成形术后的短期风险提供有用支持，但尚不足以替代现有的计算模型或专家判断。目前应将它们视为尚需微调、需要在医疗数据上更好训练并与影像工具更紧密整合的早期辅助手段，才能在真实世界的脊柱护理中安全使用。

引用: Wang, T., Chen, R., Liang, M. et al. Comparative performance of LLMs and machine learning in predicting complications after percutaneous kyphoplasty for osteoporotic vertebral compression fractures. npj Digit. Med. 9, 401 (2026). https://doi.org/10.1038/s41746-026-02588-4

关键词: 骨质疏松性脊柱骨折, 经皮球囊扩张椎体成形术, 大型语言模型, 医学中的机器学习, 手术风险预测