Clear Sky Science · zh

通过多模态推理推进对话式诊断人工智能

2026-05-14 · 返回目录

为什么更聪明的在线健康对话很重要

现在很多人在感觉不适时会求助在线聊天或应用，发送皮疹照片、检验结果快照或手表记录的心电图。尽管如此，大多数健康聊天机器人仍然只处理文本，忽视了这些丰富的图片和文档信息。本文探讨了一种能够“看”和“说”的新型医疗人工智能助手，能够将图像和病历记录编织进对话，就像细致的医生在远程门诊中所做的那样。

Figure 1. 将聊天与医疗照片和检查图像相结合以支持远程诊断的人工智能助手。

一种新型的医疗助手

研究人员构建了名为 Articulate Medical Intelligence Explorer（AMIE）的系统的更新版本。这种多模态的 AMIE 不仅能读写文本，还可以在对话中接收皮肤照片、心电图图像和临床文档，随后将这些内容与患者的书面病史一起进行推理。在底层，AMIE 运行于一个强大的通用语言与视觉模型之上，但它被包装在一个引导框架内，该框架引导系统经过医疗就诊的典型阶段：提问、形成可能的病因并建议下一步措施。

可适应的引导式对话

真实的医生不会随意提问，他们倾听、构建患者的心理图景，并在出现新线索时调整问题。为模拟这种行为，团队设计了所谓的状态感知对话框架。随着对话的展开，AMIE 会维持一份关于患者病史、症状及任何上传图像或文档的内部摘要。它还保存一份潜在诊断和知识空白的隐含清单。这个内部状态帮助 AMIE 决定何时继续询问病史、何时请求照片或心电图、何时已收集到足够信息来概述可能病因，以及如何解释图像中所见。

Figure 2. 一种分步流水线，将混合的对话和医疗图像处理为更明确的诊断和护理计划。

将人工智能与医生进行对比测试

为了评估多模态 AMIE 的表现，团队进行了大规模的模拟远程医疗考试，类似医学院使用的临床技能测试。受过训练的演员在 105 种不同情景中扮演患者，这些情景既需要对话也需要对视觉材料（如皮肤图像、心电图或化验报告）进行解读。每位演员都进行了两次独立的文本咨询，一次与经过资格认证的初级保健医生，一次与人工智能系统，对方身份对演员保密。随后，医生和 AI 都填写了结构化的诊断与处理计划总结，独立的专科医生和患者演员对每次咨询的质量进行了评分。

新系统的表现如何

在这些情景中，多模态 AMIE 的诊断在更大程度上比初级保健医生更为准确，无论只看首选诊断还是更宽泛的可能性清单。专科医生也在大多数评估指标上认为 AMIE 的推理、图像使用和对患者关于图片问题的处理与医生一样好或更好。值得注意的是，当图片质量较低时，AI 和医生的表现都会下降，但 AI 的准确率下降得较少。患者演员在礼貌性、清晰度、同理心和愿意再次就诊方面至少给予 AI 与医生同等的评分，并且他们认为 AI 在处理和解释所上传图像方面做得更好。

检测系统内部机制

作者还探究了系统为何能取得这些成绩。在基于计算机的模拟中，他们将完整版本的 AMIE 与缺乏结构化状态感知推理的简化版本进行了比较。完整系统不仅给出更准确的诊断，而且更有效地收集信息并生成更合适的护理计划。当他们去掉来回对话，仅让模型单独从图像工作时，表现显著恶化，显示出即便是能“看”的 AI，询问对话和病史采集仍然很重要。额外测试表明，仅通过在狭窄的医疗任务上微调基础模型可能会提升某些技能但损害其他技能，因此作者更侧重于在模型之上精心设计推理流程。

这对未来医疗意味着什么

这项研究表明，能够将对话与视觉结合的 AI 系统，未来可能帮助临床医生更安全、更高效地处理复杂的远程会诊。通过在周到的对话中解读患者提供的照片、心电图和文档，多模态 AMIE 在这一受控环境中经常与初级保健医生表现相当或更好，同时在同理心和沟通方面保持较高评分。作者强调这仍是探索性工作，而非真实世界的临床试验，仍需大量工作来测试安全性、公平性和在日常实践中的影响。不过，这项研究指向了一个前景：AI 工具作为远程医疗中能干的伙伴，帮助患者和临床医生更好地利用已经通过屏幕流动的图像与信息。

引用: Saab, K., Park, C., Strother, T. et al. Advancing conversational diagnostic AI with multimodal reasoning. Nat Med 32, 1726–1736 (2026). https://doi.org/10.1038/s41591-026-04371-0

关键词: 多模态医疗人工智能, 远程医疗, 诊断对话, 临床决策支持, 医疗聊天机器人