Clear Sky Science · zh
一种用于从电子健康记录诊断罕见病与亚表型识别的弱监督变换器:基于肺部病例的研究
为何更快发现罕见病很重要
对于与罕见疾病斗争的家庭来说,找出病因可能要花多年时间。症状通常模糊,医生一生中可能只见到少数此类病例,现有检测也并不总能给出明确答案。本研究探讨了一种新方法,利用电子健康记录中留下的数字足迹更早发现两种难以诊断的肺部疾病,并将患者划分为可能面临截然不同预后的亚组。

通往罕见病诊断的漫长道路
单个罕见病各自并不常见,但合计起来影响着全球数以亿计的人群。许多疾病在儿童期发病,若被漏诊可能危及生命。论文聚焦于罕见的肺部疾病,日常的呼吸短促或喘息等主诉很容易被误认为是哮喘或其他常见问题。因此,患有肺动脉高压或重度哮喘等疾病的儿童可能会辗转多位专科医生,等待多年才得到正确诊断,从而失去在病情早期进行干预改变病程的宝贵时间。
把混乱的病历变成线索
现代医院在电子健康记录中保存了大量信息,从诊断编码和处方到化验结果和医生记录。这些数据中隐藏着可能在疾病被正式命名之前就发出信号的模式。但是有个问题:只有少数患者经过专家的仔细审查,因此可以作为高质量标签、表明谁真正患病的样本很少。大多数记录只包含粗糙的“噪声”信号——可能反映计费习惯、暂时性的猜测或过时标签的编码。传统计算模型在这种环境中难以发挥作用,因为它们通常依赖大量清洁、可信的训练样本来学习。
一种从不完美数据中学习的新方法
作者提出了WEST,一种“弱监督变换器”,旨在从少量准确标签与大量不确定标签的混合数据中学习。该系统以波士顿儿童医院的两组可能患有肺动脉高压或重症哮喘的患者为起点,这些患者通过宽泛的筛查编码被识别。每组中只有一小部分经专家确诊,其余患者则从早期基于规则的工具得到概率评分。WEST使用变换器——一种最初为处理语言而开发的先进模式识别架构——将每位儿童的完整病史转化为紧凑的数值画像。关键是,它并不把粗糙标签视为绝对真相:在每轮训练后,模型会更新自身关于谁可能患病的估计,并将这些细化的概率反馈到下一轮训练中,逐步净化信号。

模型在肺病上的发现
在对留出且经专家验证的患者进行测试时,WEST 比若干替代方法更为准确,这些替代方法包括简单的编码计数规则、梯度提升树,以及要么忽略噪声标签要么将其视为真实标签的变换器。它在性能上所需的金标准病例出人意料地少——大约 100 例经仔细审查的患者就足以匹敌或优于其他方法。除了判定谁可能患有某种疾病外,模型的内部表示还自然而然地将儿童分为具有临床意义的簇。对于肺动脉高压,WEST 将患者区分为进展缓慢组和进展快速组,这两组在五年生存曲线上表现出明显不同的模式。对于重症哮喘,模型将患者分为频繁且危险的急性发作组与发作相对较少的组,这反映在住院率、低氧事件和呼吸衰竭等方面的差异。
这对患者护理可能带来怎样的改变
对非专业读者来说,关键信息是:WEST 能在常规医院数据中“看见”复杂的疾病模式,而不依赖庞大且完美标注的数据集。通过巧妙地重复利用不完美信号并结合少量专家输入,它能更准确地标记出可能的罕见病病例,并揭示面临不同风险的潜在亚组。从长远看,像 WEST 这样的系统可能有助于缩短患有罕见肺病儿童的诊断漫长历程,引导医生更早地转诊专科,并基于疾病可能的进展为患者提供更有针对性的监护和治疗方案。
引用: Greco, K.F., Yang, Z., Li, M. et al. A weakly supervised transformer for rare disease diagnosis and subphenotyping from EHRs with pulmonary case studies. npj Digit. Med. 9, 211 (2026). https://doi.org/10.1038/s41746-026-02406-x
关键词: 罕见病诊断, 电子健康记录, 医学中的机器学习, 肺动脉高压, 重症哮喘