Clear Sky Science · zh

MediQAl:用于知识与推理评估的法语医学问答数据集

· 返回目录

为何以法语测试医学人工智能至关重要

如今大多数人都会求助在线工具,有时这些工具由人工智能驱动,以获取健康信息。然而绝大多数系统在训练和测试时都使用英语,尽管数以百万计的患者和医生使用其他语言。本文介绍了 MediQAl——一个大型的法语医学考试题库,旨在揭示当今的人工智能系统在法语医学领域的理解和推理能力,以及它们尚存的不足之处。

一套新的真实医学考试题库

MediQAl 的核心是来自法国国家医学执照考试的 32,603 道题目。这些高风险考试由学术界和医院的专家撰写,旨在反映真实的临床实践:它们将教科书式的事实与复杂的现实情境混合,症状随时间展开,重要线索可能仅被暗示。法语考试的风格对机器来说增加了额外难度:题目冗长、句子结构复杂,陷阱常常依赖否定或例外,例如“以下各项均正确,除外……”。通过保留这种真实的结构,MediQAl 为评估医学人工智能在课堂简化示例之外的表现提供了一个苛刻且现实的试验场。

Figure 1
Figure 1.

以三种方式考察 AI 医师

MediQAl 将题目分为三类任务,模拟医生接受的考核。第一类且规模最大的是单项选择题,每题五个选项中只有一个正确。第二类允许多个正确选项,迫使系统权衡多项发现的组合,就像医生可能同时考虑多种并发症。第三类是简短的开放式问题,系统必须生成自己的简要答案而非从列表中选择。每道题还按测试的是直接理解(回忆或应用已知事实)还是真实推理(多步思考、整合线索或处理不确定性)进行标注。这一结构使研究人员不仅能探查人工智能“知道”些什么,还能审视它如何推理一个病例。

数据集的构建与校验方法

为组建 MediQAl,作者抓取了学生和教师分享历年试题的培训网站和官方资料。选择题通过自动化程序提取,而结构较松散的开放题则通过模式匹配与人工整理相结合,从网页和 PDF 中收集。团队剔除了缺少答案、包含图片或表格的题目、答案过长的开放题,以及通过对题干与解答进行相似性度量检测出的近重复题。为了将在测试集中集中最具挑战性的题目,作者让三款较小的 AI 模型先行回答:任何被至少一款模型解决的题目都被视为过于容易,并被重定向到训练或验证集中。随后,一名医学专家对分层抽样的 150 道题进行了复核,确认绝大多数在医学上是合理且措辞恰当的,只有少部分被标注为过时或模糊不清。

对主流 AI 模型的评测

在拥有 MediQAl 的基础上,研究评估了 14 款大型语言模型,涵盖知名商业系统以及为医学或逐步推理调优的开源模型。所有模型均在“零样本”设置下测试,即仅给出提示而无任务特定的指导。结果显示出明确的模式。首先,各模型和任务类型在简单记忆题上的表现始终优于推理类题目。平均而言,推理题的正确率相比理解题下降了若干百分点,尤其是在开放式答案中差距更大。其次,经明确训练以进行推理的模型在最难题目上通常优于“通用”版本,但仍远未达到执业临床医生所期望的可靠性。第三,不同专业领域的表现差异显著:遗传学、皮肤科或细菌学等学科处理得相对较好,而精神科、流行病学、职业医学及复杂开放性病例等领域仍具挑战性。

Figure 2
Figure 2.

这对患者与临床从业者意味着什么

MediQAl 填补了一个重要空白,提供了一个大规模、精心策划的基准,用以测试法语环境下跨 41 个专业的医学人工智能,题目面向未来医生而非机器。研究结果表明,尽管顶尖系统在回忆事实和在某些情况下匹配考试式答案方面表现良好,但在要求通过细致临床故事进行推理时仍然吃力,尤其是在非英语语境和某些专业领域。对于患者和医疗提供者来说,结论明确:现有的 AI 工具可以作为有用的辅助,但尚不能取代人类判断,其局限性在很大程度上取决于语言和专业领域。对于研究者和监管机构而言,MediQAl 提供了一个公开、可复用的测试平台,用以追踪在法语环境中实现安全、公平的医学人工智能进展的步伐。

引用: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y

关键词: 医学问答, 法语人工智能, 临床推理, 大型语言模型, 医学考试