Clear Sky Science · zh

评估 LingualAI：基于前瞻性验证的实时 AI 翻译与认证人工口译员的对比

2026-05-12 · 返回目录

弥合诊室的语言鸿沟

在美国，有数百万人因为英语不流利而难以与医生沟通。专业口译员可以提供帮助，但他们并不总是可用，尤其是在繁忙的门诊、偏远地区或深夜就诊时。本研究评估了一种名为 LingualAI 的本地手机工具，它提供实时英西翻译，能否在人工口译员难以及时到达时安全地支持医生与患者之间的对话。

Figure 1. 该 AI 工具在就诊过程中帮助说不同语言的医生和患者相互理解

为何语言支持对健康至关重要

美国有超过 2500 万人的英语能力低于“非常好”，这种语言差距与误解诊断、错过随访以及更差的健康结果等问题相关。研究显示，当患者可以使用其偏好的语言交流时，医疗更安全、更有效。然而，医院和门诊往往没有足够的认证口译员覆盖每一次就诊，尤其是在初级护理和急诊环境。随着人工智能工具日益普及，医疗系统正在探索它们是否能在不增加患者风险的前提下部分填补这一空缺。

研究者如何测试 LingualAI

休斯顿德州大学健康中心的团队设计了三种现实的耳鼻喉门诊情景，分别以英语和西班牙语呈现，并为临床医生和患者编写了台词。母语者录制了每句台词，随后采用两种方式进行翻译：由认证医疗口译员翻译以及由 LingualAI 翻译。九位双语临床医生收听了匿名化的音频片段，不知道哪些来自人工或 AI，并在五分制上进行评分。他们评估了质量的多个方面，包括医学术语的准确性、含义是否清晰传达、翻译的完整性，以及语音的自然性和文化适应性。

Figure 2. AI 翻译在保持医学含义准确方面表现良好，但产生的语音听起来不如人工口译自然

关于含义与表达风格的研究发现

在最重要的问题上——医学核心信息是否传达清楚——该 AI 系统表现出人意料的良好。无论是医学术语还是整体含义，LingualAI 的评分都与认证口译员非常接近。研究者事先定义了 AI 最多可以落后多少仍被视为“足够好”的标准，LingualAI 在含义、术语和信息完整性方面达到了这一门槛。换句话说，在这些受控测试中，该工具通常能用正确的语言表达恰当的医学内容。

人工口译员仍占优势的领域

一旦评审者关注词句的呈现方式，差异就明显了。人工口译员在语法、用词选择和文化契合度方面得分明显更高，且在语流、自然度和表现力上也更胜一筹。AI 的语音更倾向于机械化，伴随尴尬的停顿和单调的语调，可能使安抚或表达同情显得不够真切。当被问及更倾向于哪种版本时，评分者在语速、节奏和整体信任感方面强烈偏向人工口译员。这些差异足以使 AI 在以表达方式为主的项目上未能达到事先设定的“与人不差”的标准。

速度、成本与共担责任的模式

LingualAI 翻译每句口语大约需十秒，足够融入自然的来回对话。其运维成本也远低于传统电话或视频口译服务，估算下对一次 10 分钟对话仅需几美分，而人工服务则需几美元。因此，作者提出一种“口译员在环”的模式。在该模式下，LingualAI 可处理常规、低风险的交流，而在关键决策、情绪化讨论或 AI 信心较低或临床医生或患者要求人工帮助时，认证口译员则介入。

这对患者和临床医生意味着什么

对于面临语言障碍的人群，这项研究带来谨慎的乐观。LingualAI 在将医学含义跨语言传达方面表现出合理能力，尤其适用于常见的英西对话。同时，该工具在温度感、细微差别和高风险谈话的可靠性上仍不及人工口译员。作者的结论是，AI 翻译不应取代认证口译员，但在人工帮助被延迟或不可及时，作为备选工具仍很有用，前提是在人类专家继续参与最敏感和最重要的环节。

引用: Singh, U.P., Jaimes Garcia, C.A., Aisenberg, G.M. et al. Evaluating LingualAI: a prospective validation of AI-based real-time translation against certified human interpreters. npj Health Syst. 3, 29 (2026). https://doi.org/10.1038/s44401-026-00080-5

关键词: 医疗翻译, 语言障碍, 医疗领域的 AI, 临床沟通, 口译员