Clear Sky Science · zh

一个用于评估大型语言模型在罗马尼亚语医学问答上的大规模基准

· 返回目录

这对卫生与技术的重要性

现在,许多人转向在线工具和聊天机器人获取健康信息,但大多数系统在英语环境下表现最佳,并且在处理本地医疗记录时存在困难。本文填补了罗马尼亚的这一空白:当地医生用罗马尼亚语撰写冗长且复杂的病例摘要,需要可靠的数字助手来快速回答关于癌症患者的问题。作者提出了 MedQARo——一项新资源,使研究人员能够严肃测试和改进大型语言模型,从而更好地理解真实的罗马尼亚临床记录。

基于真实患者构建的新题库

研究的核心是 MedQARo——一个非常大的语料库,包含 105,880 对问答,关联 1,242 名癌症患者。研究团队没有翻译英文数据,而是从头开始使用原始罗马尼亚语病例摘要,主要涉及乳腺癌和肺癌,以及若干其他肿瘤类型。七位肿瘤科专家与住院医师花费近 3,000 小时阅读这些文档并针对精心设计的医学问题撰写答案。有些问题为是/否型,另一些要求提取具体细节,还有一些需要结合线索推断分期或治疗时间线。所有患者数据均经过充分匿名化并得到伦理委员会批准。

Figure 1
Figure 1.

在本土医学语言上测试人工智能

利用 MedQARo,作者评估了多类大型语言模型,包括两个经过一般罗马尼亚语调优的模型、一个设计用于处理超长文本的模型,以及一个以英文医学资料训练的模型。他们还将这些模型与通过付费 API 访问的两款强大商业模型进行了比较。每个模型都需要读取问题和临床摘要的节选,然后生成答案。研究人员不仅考察了精确匹配的频率,还评估了模型捕捉关键词的能力以及处理灵活罗马尼亚语表达的表现,使用了四种不同的评分度量。

微调模型胜过“开箱即用”的巨头

总体而言,直接“开箱即用”使用的模型在 MedQARo 上表现不佳,即便这些模型在英语环境中很强或对罗马尼亚语有一定接触。总是猜测最常见答案的简单基线有时几乎能与这些零样本系统相当。然而,一旦研究人员在新数据集上对模型进行微调,性能就显著跃升。表现最好的系统是一个名为 RoMistral‑7B 的罗马尼亚适配模型,在熟悉的癌症类型和医院上达到约 0.67 的 F1 得分,明显领先于其他开源和商业模型。但即便是该领先模型仍有三分之一以上的问题回答不正确,这也反映出该基准的高要求。

Figure 2
Figure 2.

跨诊所与肿瘤类型的泛化压力测试

为检验这些系统应对新情形的能力,团队构建了一个更具挑战性的测试集,来自不同医疗中心且包含训练期间未见的肿瘤类型。在这一跨域情形中,每个模型的表现都有所下降,且常常跌幅显著,表现最好的微调模型的正确回答率也远低于一半。以英文生物医学文本训练的模型并不能自动良好迁移到罗马尼亚语病历,简单地提供更长的临床文本片段也并未带来太大帮助。事实上,聚焦摘要的前半部分往往比输入整段长记录效果更好,这表明更多上下文有时会带来混淆而非澄清。

这对未来临床人工智能的意义

对非专业读者而言,结论是:在像罗马尼亚语这样的语言中构建安全且有用的医学人工智能,需要的不仅仅是将本地数据接入以英语为中心的大型聊天机器人。像 MedQARo 这样精心设计、针对特定语言的基准既揭示了当前系统的潜力,也暴露了其局限。它们显示出:当在高质量本地数据上微调后,小型开源模型可以胜过在云端运行的更大通用模型。与此同时,尤其是在新医院和新肿瘤类型上的中等得分警示我们——现有工具尚不足以替代人工判断。相反,MedQARo 为下一代临床助手提供了坚实基础,帮助罗马尼亚医生处理复杂的癌症记录,同时把患者安全与隐私置于核心。

引用: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0

关键词: 医学问答, 罗马尼亚语人工智能, 癌症临床记录, 大型语言模型, MedQARo 基准