Clear Sky Science · zh

将公平意识整合到临床语言处理模型中

· 返回目录

这对现实医疗为何重要

现代医学越来越依赖基于电子健康记录构建的人工智能。然而关于病人的一项基本信息——种族与族裔——经常缺失或记录不一致。这一空白妨碍发现和应对健康不平等。本文探讨计算机是否能可靠地从医生笔记中恢复出种族信息,同时避免对不同人群的不公平对待,以及这揭示了医疗记录和人工智能工具中哪些偏见。

Figure 1
Figure 1.

医疗记录中的隐性缺口

许多医院和诊所将种族与族裔字段留空或使用过时类别。这些缺失条目不仅是文书错误;它们会扭曲有关谁生病、谁获得何种护理、以及谁从新疗法中受益的统计数据。与此同时,记录中的自由文本部分——社会史和风险因素笔记——常常顺带提到患者的背景。作者问道,是否可以将那些散落在非结构化文本中的线索转化为结构化、连贯的种族记录,从而更清晰地呈现健康和医疗利用方面的不平等。

教计算机“读”医生笔记

研究团队使用了一个大型加拿大初级保健数据库,包含约40万名患者和400多家诊所的记录。从中抽取了近4,000名成年患者的代表性样本,并耐心地标注清晰提及种族或族裔的句子,使用九个类别,例如黑人、东亚裔、拉丁美洲裔和原住民,以及当未提及时的“缺失”类别。由于大多数笔记从未提及种族,他们采用了一种“主动学习”策略:初始的AI模型标记出最不确定的笔记,让人工注释者集中处理最可能包含种族信息的实例。

Figure 2
Figure 2.

构建更公平的语言模型

研究者比较了若干流行的基于Transformer的语言模型(如BERT及其临床变体)与一个定制的分层卷积神经网络。与将整条笔记视为一长串词的标准模型不同,分层模型模拟临床书写的方式:先处理句子内的词,再处理笔记内的句子,最后处理随时间记录的患者笔记。团队还尝试了“公平意识”训练,在损失函数中加入惩罚不同种族组间错误率差异过大的项,并调整模型对欠代表组错误的“重视”程度。

有效与无效之处

总体上,分层模型优于所有Transformer模型,取得了很高的准确率并在各个种族类别间表现更平衡,即便在未应用公平性调整之前也是如此。相反,若干Transformer对白人患者表现良好,但在较小人群中遗漏许多案例,有时仅预测多数类。加入公平性约束对一些模型(尤其是BERT)有显著帮助,使其预测既更准确又更均衡。但相同的约束也损害了其他模型的表现,包括分层模型,并且在一种临床Transformer中导致系统回归到多数类预测。研究还发现跨种族、性别和年龄交叉维度的持续差异,原住民、混合血统以及某些亚洲和拉丁美洲子群仍然最难分类。

这揭示了哪些偏见

由于表现最好的模型在有信息时能可靠检测出种族,作者认为主要问题并非笔记中缺乏信号,而是模型与数据集如何与长期存在的结构性不平等相互作用。偏见通过某些群体的代表性不足、临床医生描述不同患者时的模式差异,甚至通过主动学习过程中选择要标注的笔记而渗入。公平意识训练减少了部分差异,但无法完全克服这些上游问题,而且其效果高度依赖于模型设计。

给患者和临床医生的要点

这项工作表明,技术上可以构建从临床文本中恢复种族信息且具有高准确性与更大公平性的语言模型,尤其是当架构尊重医疗笔记的层次结构时。然而,它也清楚地表明,单靠算法无法修复源自记录实践和医疗系统本身的不平等。要让人工智能支持更公正的护理,公平性必须融入每个阶段——从数据的收集与抽样,到模型的训练、审计与使用——同时医疗机构需要改进如何记录并据此采取社会和人口学信息的相关行动。

引用: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9

关键词: 临床自然语言处理, 算法公平性, 电子健康记录, 健康公平, 种族与族裔数据