Clear Sky Science · zh

基于EULAR指南对ChatGPT-4o和Gemini在痛风管理中的评估:比较分析

· 返回目录

为何智能聊天机器人与疼痛关节重要

痛风是一种常常累及大脚趾的剧烈关节炎,全球发病率正在上升。医生已有明确且以证据为基础的诊断和治疗指南,但许多患者仍未得到最佳护理。与此同时,像ChatGPT-4o和Gemini这样的强大人工智能聊天机器人开始进入临床场景,带来一个简单却关键的问题:这些工具是否能提供安全且符合指南的痛风建议,还是可能误导医生和患者?

Figure 1
Figure 1.

检验聊天机器人遵循规则的情况

研究者旨在将两款领先的语言模型——ChatGPT-4o与Gemini 2.0 Flash——与欧洲官方(EULAR)痛风指南进行对照。两名专家将指南中的25条关键建议转化为临床医生风格的问题,涵盖现实世界中的关键问题:如何诊断痛风、何时开始降尿酸治疗、如何处理急性发作、血液检测的目标值以及生活方式或其他药物应如何调整。两款聊天机器人在独立且干净的会话中被分别提问,确保先前答案不会影响随后的回答。

答案评分方式

每个答案由两位有经验的痛风临床医生评分,评审者对模型来源不知情。评分包括三个方面。首先,可靠性:回答是否平衡、客观且可信,或是否遗漏关键事实或夸大益处?其次,质量:答案是否清晰、组织良好,并对做决策的专科医生有用?第三,与指南的一致性:回答是否完全符合EULAR建议、在部分内容上正确但不完整,或直接与指南相悖?团队还使用标准可读性测试评估答案的阅读难度,以估算理解该文本所需的教育程度。

ChatGPT与Gemini:谁表现更好?

两款聊天机器人给出的答案总体上都是合乎常理且书写清晰,并且常提醒读者咨询医疗专业人员。但重要差异显现出来。ChatGPT-4o在76%的案例中与痛风指南完全一致,另有20%为大体正确但不完整的回答,仅有一处明确的医疗错误。Gemini在48%的回答中完全符合指南,32%为部分正确但不完整。更令人担忧的是,12%的回答将正确观点与错误信息混合,8%的回答则直截了当地与指南相悖——例如,在EULAR仅建议用于难治性个例的情况下,建议广泛使用一类强效抗炎药(IL-1抑制剂),或在急性发作期间常规启动降尿酸药物,而专家对此类情况通常更为谨慎。

可读,但不易读懂

在风格上,两种系统令人惊讶地相似。在多种阅读量表上,两者生成的文本在理解上至少需要大学水平的教育程度。这对专科医生可能可以接受,但对大多数患者来说过于复杂。除非被特别要求,模型通常不会给出参考文献或来源链接,这使得核实信息来源变得困难。评审者之间的一致性被评为良好到优秀,这表明评分具有一致性,聊天机器人之间的差异是真实存在的,而非评审者主观意见所致。

Figure 2
Figure 2.

这对痛风患者意味着什么

总体而言,研究表明先进的聊天机器人可以成为医生管理痛风时的有益辅助,但尚不足以独立承担诊疗责任。ChatGPT-4o在可靠性、完整性和对专家指南的忠实度方面优于Gemini,尽管即便是它的罕见错误在涉及用药与安全时也可能产生影响。两款工具的表述对大多数患者而言过于复杂,且缺乏内置的来源透明性。目前,作者认为应将人工智能视为有前景的辅助工具,可帮助临床医生和教育者,但其建议必须与最新指南和专家判断核对,尤其在像痛风这样的疾病中,剂量细节和时机决策会显著影响疼痛、长期损伤与生活质量。

引用: Meral, H.B., Kolak, E. Evaluation of ChatGPT-4o and Gemini for gout management: a comparative analysis based on EULAR guidelines. Sci Rep 16, 4831 (2026). https://doi.org/10.1038/s41598-026-35166-5

关键词: 痛风, 临床指南, 人工智能, 大型语言模型, 风湿病学