Clear Sky Science · zh

产科专家评估人工智能语言模型回答妊娠相关问题的表现

· 返回目录

这对准父母为何重要

怀孕期间充满各种疑问,许多人现在会转向在线工具和聊天机器人寻求快速答案。本研究提出了一个简单却重要的问题:对于妊娠期间常见的顾虑,当前流行的人工智能(AI)聊天机器人在提供清晰、准确且能让医生信赖的安慰性信息方面表现如何?

比较三种数字“答疑引擎”

土耳其的研究人员着手比较三种知名的AI语言模型——较早的ChatGPT(3.5)、较新的版本(4.0)以及谷歌的Gemini。他们聚焦于孕期人们常问的十个日常问题,例如应避免的食物、运动和性行为是否安全、早期出血可能意味着什么、如何看待胎动、以及哪些警示信号需要紧急就医。每个问题都用相同的简单指令输入到三套系统中,并调整设置以减少随机性,使回答更趋一致而非富有创造性或喧哗。

每个模型对每个问题生成一条土耳其语回答,不做后续提示或编辑。随后将回答去除任何可能暴露出来源的线索并打乱顺序。这样一来,人工评审者——产科与妇科专家——只根据呈现的内容进行评判,而不会因为品牌名或他们以为识别出的写作风格而受到影响。

Figure 1
Figure 1.

医生如何评判这些回答

来自早期职业医生到经验丰富的临床医师共75名产科专家对30条匿名回答进行了评分。针对每条回答,他们使用五分制对四项品质进行评分:准确性(是否符合现行医学知识和指南?)、可靠性(信息内部是否一致且无不安全建议?)、对患者的友好度(语气对非专业读者是否恰当且能起到安慰作用?)以及可理解性(语言是否清晰、结构良好且易于理解?)。总计专家提供了9,000次独立评分——这是一个大样本数据,使研究者能够检测出三套AI工具之间的有意义差异。

研究团队随后使用适用于评分量表的统计方法对模型进行比较。他们还检查了不同医生对同一回答评分的一致性,并探讨更有经验的临床医师是否与年轻同事在评分上存在差异。目标并非建立一个可用的聊天机器人,而是在可控条件下对这些系统在回答现实妊娠问题时的表现做一个谨慎的快照。

哪个聊天机器人表现最好?

总体来看,较新的ChatGPT-4.0位居榜首。医生们认为它的回答最准确、对患者最友好,在可靠性方面也表现最好。Gemini通常居于中间:其回复常常清晰易读,在可理解性上与ChatGPT-4.0相近,但往往细节和精确度略逊一筹。较旧的ChatGPT-3.5持续获得最低评分,常给出较短或不够完整的解释。有趣的是,就基本的清晰度和结构而言,三种模型更为相似,这表明使文本可读可能比确保每一处医学细节都正确且平衡更容易实现。

Figure 2
Figure 2.

医生们的评分高度一致,表明结果并非由少数极端意见驱动。更有经验的临床医生总体上倾向于给出略高的可靠性评分,但他们在友好度或易理解性方面的看法与年轻同行并无太大差异。

这对现实使用意味着什么

对普通人而言,结论是现代AI工具——尤其是ChatGPT-4.0——已经能够提供许多产科专家认为相对准确、安全且易读的妊娠信息。但研究也强调了一个重要界限:即便是表现最好的系统也不是医生。研究未将聊天机器人回答与官方指南的“金标准”进行比较,也未测试患者实际如何解读或据此采取何种行动。由于研究全部使用土耳其语完成,因此在其他语言和文化中的表现可能有所不同。

简单来说,这些AI聊天机器人可以作为了解妊娠信息的有益辅助,尤其在就诊不便或与医护人员交流时间有限时。但它们应当支持而非取代与医疗专业人员的对话。作者强调,专家监督依然必不可少,以发现错误、避免错误的安慰,并确保在复杂或高风险情形下获得必要的面对面个人护理。

引用: Keyif, B., Yurtçu, E., Başbuğ, A. et al. Evaluation of AI language models in answering pregnancy-related questions assessed by obstetrics specialists. Sci Rep 16, 9322 (2026). https://doi.org/10.1038/s41598-026-40609-0

关键词: 妊娠教育, 人工智能聊天机器人, 在线健康建议, 产科, 患者信息质量