Clear Sky Science · zh

多中心多功能评估：大语言模型在纯音听力图患者解读中的应用

2026-03-15 · 返回目录

为什么听力检查报告如此难以理解

许多人在做完听力检查后拿着一张布满点线的图表，医生仅留下一句简短说明。对非专业人士来说，这些纯音听力图报告几乎无法解读，但它们却影响着是否配戴助听器、接受治疗和日常沟通等改变生活的决策。本研究探讨当代由大语言模型驱动的人工智能聊天机器人，能否将这些技术性图表转换为普通患者也能理解、并具备安抚作用的清晰解释。

把复杂的耳部图表变成通俗语言

纯音听力图是衡量我们对不同音调（从低沉到高亢）听力能力的金标准测试。所得报告看起来更像物理实验的记录，而非健康概况。与此同时，受过训练的听力专家在全球范围内短缺，尤其是在医疗资源有限的地区。研究人员看到一个机会：如果聊天机器人能够“读取”这些图表并用日常语言解释结果，它们或许能帮助患者更早、更全面地理解自己的听力状况，支持世界卫生组织提出的“全民听力健康”目标。

把多款聊天机器人拿来测试

研究团队收集了来自中国两家中心的140份真实听力检查报告，去除个人信息，并重建了标准化的听力图。随后，他们让来自中美多家公司的八种大语言模型分别针对每份报告执行三项任务：判断听力损失的严重程度及类型（例如与内耳或外耳相关）、用患者易懂的语言解释检查结果，以及提供实用建议，例如何时就医或考虑配戴助听器。所有模型输出在受控条件下收集，随后由经验丰富的临床医生和不知情的普通志愿者进行评估，评审者并不知道哪个模型给出了哪份答案。

机器诊断听力损失的表现如何

在充当虚拟听力专家方面，模型的表现参差不齐。表现最好的系统DeepSeek‑V3在判断听力损失严重程度时约有三分之二的正确率，在识别听力损失的大类上略高于一半。其他模型往往表现较差，而且整体准确率仍远低于受过训练的临床医生。研究人员还测试了向模型提供信息的不同方式，例如在图像的同时添加更多结构化数字。对于大多数系统，这些改变提高了准确性，表明信息呈现方式可能与模型本身的能力一样关键。

有帮助的解释，但存在令人担忧的虚构细节

除了纯粹的准确性外，研究还评估了聊天机器人解释的可读性与可信度。有些模型给出冗长啰嗦的回答，另一些则更简洁。只有DeepSeek系列模型持续以大致适合中学教育水平的可读性撰写，符合主要医疗组织的健康素养指南。然而，若干系统表现出令人担忧的“幻觉”倾向，会编造原始报告中不存在的细节。在部分模型的大约四分之一回答中，聊天机器人捏造了数字、错误陈述听阈，或推荐不存在的设备与不现实的治疗路径。相比之下，一款Gemini模型出现幻觉的情况明显较少，尽管其医学准确性并非最高。

专家与普通用户的评价

临床医生从准确性、全面性和实际可用性等方面对模型进行了评分。在专业质量上，DeepSeek‑V3及其姊妹模型通常名列前茅，提供结构化的解释和符合临床实践的针对性建议。但当普通公众对相同回答进行评价时，优先考虑的要点发生了变化。非专业人士更偏好那些更易理解、更具对话性和更有情感支持的模型，即便这些模型在医学上并非最精确。Gemini系列在清晰度、共情性和总体满意度方面得分尤其高，凸显了严格的专业标准与以患者为中心的沟通需求之间的张力。

这对有听力问题的人意味着什么

听力损失普遍存在，许多人从未得到对检查结果的清晰解释。本研究表明，当今的聊天机器人尚不足以取代听力学家或单独根据听力图做出诊断。它们的错误率和偶发的虚构细节如果在无人监督的情况下使用，可能会误导患者。与此同时，这些模型已经具有实际优势：把密集的图表转化为通俗语言、提供初步指导并缓解那些可能无处可问的人的焦虑。在谨慎使用、附以明确警示并在听力专业人士监督下，这类工具可以成为有价值的助手，帮助弥合医疗可及性差距、改善理解并促进更早采取听力健康行动。

引用: Liang, J., Xing, M., Xiang, P. et al. A multicenter multifunctional assessment of large language models in pure-tone audiogram interpretation for patients. npj Digit. Med. 9, 348 (2026). https://doi.org/10.1038/s41746-026-02537-1

关键词: 听力损失, 纯音听力图, 大语言模型, 患者沟通, 数字健康