Clear Sky Science · zh

一种对设备不敏感的多模态学习框架用于呼吸系统疾病分类

2026-02-26 · 返回目录

为什么你的手机有朝一日可能帮你检查肺部状况

我们大多数人整天把一个功能强大的麦克风和计算机放在口袋里。如果这台日常设备能听一段短促的咳嗽并在没有医生或昂贵设备在场的情况下提醒严重肺病的早期迹象，会怎样？本研究探讨了如何将普通的咳嗽声，结合少量关于个人的背景信息，转化为对几种常见呼吸问题的可靠警示，使用能够跨多种智能手机和录音设备工作的人工智能。

在简单的咳嗽里倾听疾病

许多肺部疾病——从慢性阻塞性肺病（COPD）和哮喘到感染——往往以咳嗽、痰多和气短等模糊症状起病。如今，确诊这些疾病通常需要胸部影像、肺功能检测或专科医生的详细检查，而在就诊人多或资源有限的环境中这些手段往往难以获得。基于咳嗽的人工智能工具已成为一种低成本、无创的替代方案，但到目前为止大多数系统依赖单一类型的录音设备并仅分析声音本身。作者致力于设计一种更智能的系统，能够将咳嗽音频与简单问卷回答和人口学信息结合使用，并在用户在家中或繁忙诊所使用多种不同手机和麦克风录音时仍保持准确性。

从数千名患者构建稳健的数字体检

该团队从四家医院收集了来自超过12,000名成年门诊患者的大规模真实世界数据集。对每位参与者，他们在安静房间采集至少十秒的自发咳嗽，并对每段录音进行严格的质量控制流程，以去除背景噪声、语音和无效咳嗽。每个通过审核的咳嗽片段被转换为类似视觉的声学表示并输入一个最初在海量音频集合上训练的音频模型。与此同时，研究者使用针对医学文本调优的语言模型对简单的背景信息——例如年龄、性别、身高、体重、吸烟史以及关键症状如咳痰或气短——进行编码。一个融合网络随后学习如何将这两类信息流结合起来，以判定每位受试者可能存在的七类呼吸系统疾病中的哪几种。

教会人工智能忽略设备差异，聚焦疾病特征

现实应用中的一大障碍是咳嗽声音由多种类型的手机和麦克风捕捉，而每种设备都会以不同方式改变声音。为克服这种“设备效应”，作者在训练中加入了一个特殊分支，用于识别每段咳嗽由哪种设备录制。与此同时，主模型在做出准确疾病预测时会得到奖励，但每当其内部特征使设备识别变得容易时就会受到惩罚。这种对抗式设置促使系统剥离设备特有的特征，只保留与疾病相关的模式。一个额外的训练技巧鼓励模型在不同设备之间保持一致行为，进一步稳定在遇到从未见过的新硬件时的性能。

该系统识别不同肺部问题的效果如何

采用这种设计后，模型在三项重要筛查任务上达到了很高的准确度。对于常常在晚年才被诊断出的COPD，该系统获得了接近0.97的曲线下面积（AUC）分数，表明在病人和健康人之间有极佳的区分度。对于下呼吸道感染和所谓的肺部阴影（影像上可能代表肿瘤或结构改变的斑点），性能也很强，虽然略逊于COPD。当被要求同时判断全部七种呼吸系统状况，包括同一患者中疾病的组合时，该工具仍优于若干最先进的替代方法。细致的比较显示，咳嗽音频携带最强的信息信号，而人口统计学和症状回答则提供了有益的上下文。对抗式训练持续改善了结果，并且关键在于减少了系统在使用全新手机型号录制的咳嗽上测试时的精度下降。

从医院试验到日常健康伴侣

尽管该模型尚不能取代胸部影像或专科评估——特别是对于像微小肺结节这类罕见或无症状的问题——但它作为分诊辅助工具展现出真实潜力。实际应用中，这可能意味着用户对着手机短促咳嗽一段时间，随后得到一个快速风险评分，帮助决定谁需要进一步检测或随访。作者指出仍存在的挑战，包括罕见疾病的数据不平衡、有限的族裔多样性以及需应对嘈杂家庭环境的必要性。尽管如此，他们的结果表明，通过谨慎的设计，人工智能系统可以超越不同设备的差异，将简单问卷数据与咳嗽声音融合，并为更早期的检测和监测呼吸系统疾病提供可扩展、低成本的支持。

引用: Yang, M., Liu, X., Du, W. et al. A device-invariant multi-modal learning framework for respiratory disease classification. npj Digit. Med. 9, 290 (2026). https://doi.org/10.1038/s41746-026-02445-4