Clear Sky Science · zh

基于Transformer的关系抽取与概念规范化:使用经注释的临床试验语料库

· 返回目录

帮助医生更快找到合适的患者

每项临床试验都依赖于找到符合长长一列医疗条件、治疗方案和时间窗的患者。如今,医生常常需要手工阅读电子病历和试验说明,这既缓慢又容易出错。本文介绍了一个大规模且经仔细校验的西班牙语临床试验文本集合,并展示了现代人工智能如何将这些非结构化语言转化为有序数据,从而为更快速、更公平、更精准的医学研究铺平道路。

Figure 1
Figure 1.

将自由文本变成有组织的信息

临床试验使用通用医疗语言描述谁可以或不可以参与:年龄限制、既往疾病、化验结果和尝试过的治疗等。计算机处理这种自由文本很困难。作者创建了CT‑EBM‑SP语料库的第3版,该数据集包含1200篇西班牙语临床试验文本,近30万词。人工专家对这些文本进行了标注,标出23类医学实体,例如疾病、药物、检验结果和时间表达,以及表示否定(例如“无病史”)和不确定性的线索。他们还标注了11种属性,用来捕捉事件是否发生在过去或将来,以及是发生在患者本人还是家庭成员等细节。

让医学术语说同一种话

医学中的一个主要挑战是同一概念可以有多种书写方式。为了解决这一问题,研究团队将大多数标注的实体链接到统一医学语言系统(UMLS)中的标准化代码——这是一个庞大的多语言医学词典。这个步骤称为概念规范化,意味着不同拼写或措辞都指向相同的唯一标识符。例如,“25‑羟基维生素D”的多种变体都映射到单一的UMLS概念。总体上,语料库包含超过87,000个实体和超过68,000条关系,约有82%的实体成功被规范化。两位专家独立复核了这些链接,达成了很高的一致性,表明注释是可靠的。

Figure 2
Figure 2.

捕捉医学事实之间的相互关系

数据集不仅列出医学术语,还记录它们之间如何相互关联。作者设计了18类关系来捕获在试验中重要的模式,例如哪个剂量属于哪个药物、治疗持续多长时间或患者经历了哪种病症。时序关系显示一个事件是在另一个事件之前还是之后,其他链接则标示疾病发生在身体哪个部位,或短语是否表达否定或推测。综合这些关系,计算机可以构建患者情境的图谱——谁是患者、他们有什么病、接受何种治疗、以及时间安排——而不仅仅是识别孤立的词项。

训练与测试现代人工智能模型

为证明该语料库在实际中的可用性,作者微调了多种基于Transformer的AI模型,包括多语言版本的BERT和RoBERTa。他们在两个任务上训练这些模型:关系抽取(学习恢复实体之间的链接)和医学概念规范化(将文本映射到UMLS代码)。在关系抽取任务中,表现最好的模型取得了接近0.88的F1分数,意味着它在较少错误的情况下正确识别了大多数关系。对于概念规范化,一个名为SapBERT的多语言模型在未额外训练的情况下,首次预测即正确的比例接近90%。这些结果表明,即便没有大规模通用语言系统,经过良好注释的中等规模数据集也能驱动准确且高效的模型。

该资源对未来医疗为何重要

CT‑EBM‑SP语料库及其相关模型为能够自动解析西班牙语临床试验文本、将其与患者记录比对并支持医院队列发现的工具提供了基础。由于数据与国际医学标准对齐并由专家细致校验,它们也有助于为数字工具较少的其他语言开发类似资源。通俗地说,这项工作旨在让合适的患者更容易、更安全地被推荐参加合适的试验,加速医学发现,同时减轻医疗人员的负担。

引用: Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A. et al. Transformer-based relation extraction and concept normalization using an annotated clinical trials corpus. Sci Data 13, 280 (2026). https://doi.org/10.1038/s41597-026-06608-6

关键词: 临床试验, 医学文本挖掘, 西班牙语医疗, Transformer模型, 循证医学