Clear Sky Science · zh

自动语音分析能预测孤独感

2026-04-04 · 返回目录

在日常对话中听出情感

我们大多数人都知道孤独是什么感觉，但很少考虑它听起来可能是什么样子。这项研究提出了一个引人注目的问题：即便只是描述一幅简单的图片，我们声音中的微妙模式是否也能揭示我们有多孤独？通过使用自动语音分析和机器学习，研究者探讨计算机能否捕捉到人们可能忽视的细微声学线索，为理解社会失联与情绪健康提供新的视角。

孤独为何关系重大

孤独不仅仅是一时的情绪；它与抑郁、焦虑、精神病性症状、自杀想法甚至早死的风险增加有关。长期感到孤独的人往往预期社交会出问题，更关注可能的被拒绝，并可能以无意中推远他人的方式行事。早期研究表明，陌生人和实验人员能识别出孤独者，他们在社交情境中的大脑和激素反应也不同。所有这些都表明，孤独会在我们的行为和交流中留下痕迹，包括说话方式。

细致聆听简单语音

研究团队招募了96名健康成年人，男女比例大致均衡，平均年龄约31岁。参与者完成了衡量孤独、抑郁和社交焦虑的标准问卷。随后，他们在平板电脑上录音，完成了三项简短的口语任务。其中一项是描述一幅广为人知的家庭厨房场景图片，这可以温和地引导人们谈论他人的想法和行为。在另外两项任务中，参与者讲述了一段积极与一段消极的个人经历，这些故事被选为具有情感意义但不创伤。

将语音转换为数据

研究者并未分析词语的含义，而是关注参与者的说话方式。使用专门软件，他们从每段录音中自动提取了数十项特征。这些特征涵盖时序（例如录音中说话与停顿的比例）、旋律与节奏（如音高模式）、声音质量（例如声音的清晰度或噪声程度）以及声学信号的性质。机器学习模型按性别分别训练，尝试从这些特征预测每个人的孤独评分。最有希望的结果来自结构化的图片描述任务，而非更自由的情感叙述。

计算机“听”到了什么

来自图片描述的语音使模型在男女两组中均能比随机更好地预测孤独，解释了个体差异中的一小部分但有意义的比例。没有单一的语音特征携带全部信号；相反，许多微小效应叠加形成了可检测的模式。在女性中，较高的孤独感与说话时连续性较低（相对更多的沉默）和响度随时间更不稳定有关。在男性中，较高的孤独感与音节间停顿较少、整体说话时间更短、嗓音更粗糙嘈杂以及音高略高相关。当用语音特征与抑郁和社交焦虑问卷分数共同预测孤独时，综合模型在女性中优于仅问卷，但在男性中则不然，这暗示性别可能影响孤独如何在语音中体现。

研究结果的背景与局限

有趣的是，情感叙述任务的语音在预测孤独方面远不及图片描述。这些开放式故事的内容差异很大，激发的情绪更强烈，可能增加了额外的语音变化，从而掩盖了与孤独相关的更微妙模式。相比之下，标准化的图片描述使所有人处于相似的社交思考情境，便于检测细微差异。尽管如此，模型只捕捉到部分信息；孤独也与抑郁和社交焦虑密切相关，而且样本主要是年轻健康成年人，他们的经历可能不同于年长或临床受困扰的人群。

对日常生活的意义

简而言之，研究表明我们的说话方式——停顿、音高和声音质量——带有关于我们感到多孤独的微弱但真实的线索，即便仅是在描述一个场景时。计算机可以通过分析人类很少有意识注意到的声学特征来捕捉这些模式。当前结果更像是概念验证，而非现成的测试，但它们指向一种可能性：简短的日常语音或能帮助识别长期孤独及相关健康风险的人，从而在孤立变得根深蒂固之前，推动提供支持。

引用: Immel, D., Mallick, E., Linz, N. et al. Automatic speech analysis can predict loneliness. Sci Rep 16, 11604 (2026). https://doi.org/10.1038/s41598-026-45965-5

关键词: 孤独, 语音分析, 心理健康, 机器学习, 社交联系