Clear Sky Science · zh

利用机器学习和语音对帕金森病、慢性阻塞性肺疾病与健康对照进行多类分类的研究

· 返回目录

通过人声聆听疾病

我们大多数人很少注意到声音能够透露多少健康信息。然而,音高、稳定性或呼吸感的细微变化,可能携带有关影响大脑和肺部疾病的线索。本研究探讨了将某人对着智能手机持续发出短促“啊”音的录音,与现代机器学习结合,是否能帮助区分帕金森病患者、慢性阻塞性肺疾病(COPD)患者与健康老年人。

Figure 1. 用手机录制的简单元音声音输入模型,模型将语音分为帕金森、COPD 或健康三类。
Figure 1. 用手机录制的简单元音声音输入模型,模型将语音分为帕金森、COPD 或健康三类。

为何帕金森与 COPD 会影响我们的发声

帕金森病以震颤和僵硬著称,但它也常使言语变得更轻、更单调且不清晰。COPD 作为一种长期肺部疾病,会使气道狭窄和呼吸困难,从而使声音变得虚弱、嘶哑或带有气息感。尽管两种疾病都扰乱了简单的发声过程,临床上仍缺乏基于语音的快速客观检测方法。以往多数研究只让计算机在“患者”与“健康”之间做出判断,通常只针对单一疾病并局限于一种语言。作者提出了一个更为严峻且现实的问题:能否用一个系统听取非常简单的语音声响、跨语言地,同时将人群分为三类?

研究人员如何收集并处理语音

团队合并了两个用移动设备录制的大型语音数据集。一个来自 mPower 项目,包含患有帕金森病的英语说话者和健康志愿者;另一个称为 COPDVD,包含瑞典语的 COPD 患者及匹配的健康对照。为使各组可比,研究者仔细挑选了性别比例、年龄和录音次数接近的样本,最终得到 96 名参与者和 1,723 条可用的持续“啊”音录音。他们去除了静默段落,然后将每条录音转化为 102 个数字的描述,捕捉了如音高与粗糙度等基本语音测量,以及称为梅尔频率倒谱系数的详细谱指纹。

Figure 2. 一段语音被转化为声学模式,经过四个模型共同投票,最终形成三个分离的语音簇。
Figure 2. 一段语音被转化为声学模式,经过四个模型共同投票,最终形成三个分离的语音簇。

训练一个投票型算法团队来“听”

研究者没有信任单一机器学习方法,而是构建了由四种不同分类器组成的“投票委员会”。每个算法读取录音的特征集并给出其对该录音来自帕金森病、COPD 或健康对照的预测及各选项的概率。这些概率随后被平均,以使最终答案反映团队共识。为避免因过拟合而自我欺骗,团队采用了严格的训练策略:模型在不同的数据折上反复调优和测试,最终性能在一组完全独立的参与者(这些参与者的录音未在训练中出现)上进行评估。

系统在语音中听到的内容

在这一独立测试集上,集成模型总体准确率约为 84%,平衡 F1 分数略低于 0.84,表明在三个组别上均表现良好,尽管样本量不同。系统在识别帕金森病方面尤其出色,其精确度和召回率均最高。健康语音的分类效果处于中等水平,而 COPD 语音最难识别,最常与健康录音混淆。值得注意的是,帕金森与 COPD 很少被互相误判,这表明尽管两者的语音都异常,但其声学特征存在可被算法检测到的差异。当研究者检查元音在由共振频率定义的声学“空间”中的分布时,发现三组之间存在细微但一致的偏移与扩展,即便语言不同亦是如此。

窥视“黑箱”内部

为理解驱动系统决策的依据,团队使用了一种现代解释工具,为每个语音特征分配影响力分数。他们发现最重要的声学特征并非对每个组都相同。年龄、详细的谱形和与音高相关的测量都很重要,但在帕金森、COPD 与健康对照中以不同的组合起作用。例如,某些谱描述符和共振峰模式在 COPD 中影响更大,而某些谱与音高线索在帕金森病中起到更强的作用。这一模式表明模型确实学到与疾病相关的发声特征,而不仅仅是在检测“异常”语音。

这对日常护理可能意味着什么

简单来说,这项工作表明,用普通移动设备录制的一段短促持续“啊”音,包含足够信息,经精心设计的机器学习系统可以区分大脑相关与肺部相关的发声问题以及正常衰老的语音。这种方法并不能取代医疗诊断,且仍需更大、更具多样性的研究,但它指向了一个前景:快速、无创的语音检测有望支持临床医生在筛查和监测帕金森病或 COPD 患者时提供帮助,甚至可跨语言和不同环境使用。

引用: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

关键词: 帕金森病, COPD, 语音生物标志物, 机器学习, 移动医疗