Clear Sky Science · zh

一种新的数字孪生策略,用于检验随机临床试验对现实世界人群的含义

· 返回目录

这对日常患者为何重要

当医生阅读大规模临床试验的结果时,总会有一个挥之不去的问题:这些结果真的适用于我面前的患者吗?这项研究提出了一种新方法,利用临床试验的“数字孪生”——对真实研究的计算机复制品——在不同患者群体中重复试验,包括从电子健康记录中抽取的患者。该工作以血压试验为重点,但这种方法最终可以帮助将几乎任何试验的证据量身定制到实际就诊的人群上。

Figure 1
Figure 1.

一刀切试验的问题

随机临床试验是判断治疗是否有效的金标准,但通常在经过精心筛选的患者群体中进行。许多日常患者——老年人、有多种疾病的人或来自代表性不足社区的人——可能与最初试验的志愿者不同。因此,医生经常不得不猜测在自己的患者身上应当在多大程度上信赖试验结果。当看似相同治疗的不同试验得出相互矛盾的结论时,这个问题尤为令人不安,令临床医生和指南制定者不确定应当推荐什么。

两项血压试验之间令人费解的分歧

研究者关注一个广为人知的谜题。一项大型试验 SPRINT 显示,积极降低收缩压(目标低于120 mmHg)相比标准护理(目标低于140 mmHg)能显著减少主要心血管事件。另一项试验 ACCORD 在2型糖尿病患者中测试了相同的积极策略,却未发现明确获益。对此提出了许多解释,包括入组人群差异和事件发生率不同,但一直缺乏一种严格的方法,能够把一个试验的人群“迁移”到另一个人群中,看看结果是否会改变。

构建试验的数字孪生

为了解决这一问题,研究团队创建了 RCT-Twin-GAN,一种构建随机试验数字孪生的深度学习框架。该方法使用一种生成模型,学习多种患者特征(例如年龄、肾功能、心率、既往心脏病史和用药情况)之间以及这些特征与试验结局之间的相互关系。临床专业知识通过一张指向性因果关系图融入模型,引导模型关注有医学意义的联系并避免虚假的模式。一旦在原始试验上训练完成,模型就可以“条件化”到第二个人群:它接受新群体的特征配置并生成一个在这些患者中进行的合成试验,同时保持治疗组与对照组之间的随机化。

Figure 2
Figure 2.

在新患者群体中重放试验

作者首先验证了他们的数字孪生能否忠实再现原始的 SPRINT 和 ACCORD 试验。合成版本在基线特征、变量之间的关系,以及关键的治疗效应规模(或缺乏效应)方面与真实试验高度一致。随后他们进行了一个思想实验:在 SPRINT 上训练模型但以 ACCORD 人群为条件,反之亦然。当在 ACCORD 人群中重放 SPRINT 时,数字孪生未显示出积极血压控制的明显优势,反映了 ACCORD 的真实结果。当在类似 SPRINT 的人群中重放 ACCORD 时,数字孪生表现出显著获益,呼应了 SPRINT。最后,他们将模型条件化到来自大型卫生系统电子健康记录的真实世界患者,生成反映本地患者特征的试验孪生,并估计 SPRINT 和 ACCORD 干预在这些更广泛群体中可能取得的效果。

这对临床和未来试验的意义

对普通读者来说,结论是 SPRINT 与 ACCORD 的冲突结果更可能源于受试人群的差异,而不是血压策略本身。相同的治疗在一种患者组合中可能显得有益,而在另一种组合中则可能无效。RCT-Twin-GAN 提供了一种定量探索这些“如果怎样”的方法,而无需重新进行昂贵且耗时的试验。尽管针对电子健康记录人群得到的估计尚不足以指导个体化治疗,但它们能指出试验发现可能普适或不普适的方向。随着时间推移,这类方法可能帮助卫生系统和监管机构预见新疗法在现实世界患者中的表现,并设计更符合需要答案的人群的未来试验。

引用: Thangaraj, P.M., Shankar, S.V., Huang, S. et al. A novel digital twin strategy to examine the implications of randomized clinical trials for real-world populations. npj Digit. Med. 9, 329 (2026). https://doi.org/10.1038/s41746-026-02464-1

关键词: 数字孪生, 临床试验, 血压, 电子健康记录, 生成式人工智能