Clear Sky Science · zh

SEA CDM:用于跨域数据整合与分析的研究-实验-检测通用数据模型与数据库

· 返回目录

为何整理实验室数据与我们每个人息息相关

现代医学依赖海量的实验数据——从疫苗试验和感染研究到癌症基因组学。然而,这些数据常常以不兼容的格式存放,导致科学家难以将结果合并并发现重要模式,例如谁对疫苗反应最好或为何一些人出现更多副作用。本文介绍了一种新的组织和连接多样生物医学实验的方法,使研究人员能够提出更丰富的问题并更快、更可靠地得到答案,最终影响疾病的预防和治疗方式。

为实验建立共同语言

不同的研究团队和数据库往往以各自的方式描述研究,即便它们进行的是非常相似的工作。一个数据库可能侧重疫苗试验,另一个关注单细胞的基因活性,第三个记录临床结局,各自使用不同的标签和结构。研究–实验–检测通用数据模型(Study–Experiment–Assay Common Data Model,简称 SEA CDM)为这些工作提供了一套简单的共享“语法”。它将任何生物医学项目分解为三个相互关联的步骤:提出问题的总体研究、在人或动物上开展的实验,以及产生结果的检测——例如血液检测或基因表达测量。围绕这些步骤,该模型还标准化了关键要素,例如研究对象或对象是什么、采集了哪些样本、应用了哪些处理,以及进行了哪些分析。

Figure 1
Figure 1.

本体:将标签转化为知识

仅仅对齐列标题还不够;同一概念在不同地方可能有不同的命名。SEA CDM 借助经过整理的词汇表——即本体,确保“流感疫苗注射”、“三价灭活流感疫苗”以及像“Fluzone”这样的品牌名都能被识别为相关概念。这些本体结构类似医学和生物学术语的族谱。因为 SEA CDM 为每个变量(例如疾病、细胞类型或疫苗)附加了来自本体的官方标识符,计算机就可以自动沿着这些树状结构查找,找到所有相关记录,甚至推断出关系。例如,一个简短的查询就能从数百个命名产品中抽取使用任何三价流感疫苗的所有研究,从而实现远超简单关键词匹配的强大语义搜索。

Figure 2
Figure 2.

从分散文件到互联数据库

为了在真实世界中测试他们的模型,作者在 OSEAN 名下构建了一系列数据库和工具。他们将三个大型公共资源转换为 SEA CDM 结构:ImmPort(托管免疫反应研究元数据)、VIGET(将疫苗研究与基因表达数据连接)和 CELLxGENE(专注于单细胞测量)。通过定制管道,他们将数十个原始表格和文件格式翻译为一致的 SEA CDM 表或图节点。这使他们能够在一个一致的框架中存储一千多项免疫相关研究、两百多万份样本以及大量关于疫苗、疾病和实验方法的描述,并可用相同的软件进行搜索。

统一数据能揭示的疫苗与性别差异

在建立了这一统一系统后,团队提出了一个具有直接医学相关性的生物学问题:不同流感疫苗如何在女性和男性中刺激免疫系统?通过查询基于 VIGET 的 OSEAN 数据库并应用简单的“被刺激”基因判定规则,他们识别出数百个在接种减毒活疫苗(含弱化病毒)或灭活“杀死”疫苗后活性上升的基因。随后他们比较了这些基因参与的通路,并按性别分开分析。一个显著的模式牵涉到中性粒细胞——一种通过释放有毒颗粒攻击微生物的白细胞类型——以及通过 TNF(一种关键炎性分子)的信号传导。在大多数群体中,流感疫苗接种与中性粒细胞脱颗粒的迹象相关,但在接受减毒活疫苗的女性中,这一特征缺失。相反,与 TNF 相关的信号在这些女性中尤为突出,而在相应的男性组中则不明显。这些发现呼应了动物研究,表明中性粒细胞行为和疫苗反应在雄性与雌性间可能存在系统性差异。

为未来发现构建生态系统

作者认为 SEA CDM 的真正力量在于使生物医学数据更符合 FAIR 原则——可查找、可获取、可互操作和可重用。通过为实验提供共享结构并将每个重要标签锚定到明确定义的本体术语,他们的系统极大简化了来自不同来源的数据合并、样本处理追溯以及分析复现。流感病例研究表明,即便是相对简单的查询,在统一的数据库上运行也能发现影响剂量或疫苗选择的细微性别特异性反应模式。随着更多资源采用这一通用模型和配套工具,研究人员将更有能力跨疾病、技术和人群连接线索,把分散的数据集转化为真正的整合生物数据生态系统。

引用: Huffman, A., Yeh, FY., Hur, J. et al. SEA CDM: Study-Experiment-Assay Common Data Model and Databases for Cross-Domain Data Integration and Analysis. Sci Data 13, 238 (2026). https://doi.org/10.1038/s41597-026-06558-z

关键词: 数据整合, 生物医学本体, 疫苗反应, 性别差异, 知识图谱