Clear Sky Science · zh

基于Box-Cox聚类与极端随机化的自适应回归模型:利用语音信号诊断帕金森病

· 返回目录

为何聆听声音有助于更早发现帕金森

帕金森病最为人所知的症状是震颤和僵硬,但在这些症状明显出现之前很久,声音常常会以细微方式发生变化。由于几乎人人口袋里都带着麦克风,这些变化可以在家中被监测,将普通的言语变为早期预警系统。本文探讨如何构建一个智能且可靠的“监听”工具,利用先进的计算技术仅凭声音就估计一个人帕金森症状的严重程度。

Figure 1
Figure 1.

将家庭录音转化为有意义的健康线索

研究者使用了来自42名早期帕金森患者的丰富语音数据集,参与者在大约六个月期间在家中录制短元音。系统从每次录音中测量了数十种声音属性,例如声带振动间基频的稳定性(抖动),响度的波动程度(颤抖),以及声音的噪声或气息感。这些测量与帕金森对控制言语肌肉的影响有关。目标不仅是判断某人是否患有帕金森,而是预测两个详细的医学评分,即医生用来评估总体症状严重度的Motor-UPDRS和Total-UPDRS。

清理混乱数据以便计算机理解

原始语音测量数据可能很混乱:有些数值高度偏斜,有些存在极端离群值,许多特征之间高度重叠。如果直接将这些数据输入模型,杂乱会干扰学习并使结果脆弱。为应对这一点,团队首先应用了一种称为Box–Cox变换的数学重整步骤。简单来说,这会拉伸或压缩数据,使极端值被抑制且总体分布更接近平滑的钟形曲线——许多学习算法对此类分布更为有效。他们还注意按人而非按录音划分数据,这样计算机在训练和测试中不会同时见到同一名患者,避免因“记住”个体声音而产生的虚高准确性假象。

Figure 2
Figure 2.

让数据决定哪些语音特征真正重要

数据集中26个语音特征中许多是同一主题的不同变体——例如,测量音高抖动或响度变化的多种方法。作者没有把所有特征都直接放入模型,而是尝试了几种策略以保留最有用的特征。他们最成功的方法是将表现相似的特征聚成簇,然后从每个簇中基于与症状评分的相关性挑选一个代表性特征。基于聚类的选择将原始集合缩减为仅三项突出的指标:一项抖动测量、一项颤抖测量和一项整体声音噪声度量。尽管这一大幅简化,这三项精心挑选的特征仍捕捉了录音中大部分的医学信息。

使用随机化决策树解读语音信号

在得到精简的语音特征后,团队比较了一系列预测方法,从简单的线性公式到更灵活的基于树的模型以及类神经网络的自编码器。明显的赢家是称为Extra Trees的方法——由许多决策树组成的集成,每棵树以高度随机的方式划分数据。这种随机性结合减少且低冗余的特征集,帮助模型避免过拟合——即记住训练数据的特性而非学习通用模式。在未见过的患者上,聚类加Extra Trees的组合对Motor和Total UPDRS评分的预测精度令人印象深刻,预测分数与实测分数高度接近,差异通常远小于在超过一百分量表上的一分。

这对与帕金森病共处的人意味着什么

对于普通读者,关键信息是:少数经过精心挑选的语音测量指标,经过周密设计的学习流程处理后,能够用在家录制的语音追踪帕金森的严重度,达到接近临床的准确性。尽管该研究仍依赖单一数据集,且需要在更大、更有多样性的患者群体中验证,但它展示了通向实用远程医疗的有希望路径:未来短短一段语音录音就可能帮助患者和医生跟踪病情进展、调整药物,并可能更早发现病情恶化,而无需前往门诊。

引用: Essam, M., Balat, M., Zaky, A.B. et al. Adaptive regression model for Parkinson’s disease diagnosis from speech signals using Box-Cox-based clustering and extremely randomization. Sci Rep 16, 14044 (2026). https://doi.org/10.1038/s41598-026-49065-2

关键词: 帕金森病, 语音分析, 机器学习, 远程监测, 特征选择