Clear Sky Science · zh

将癌症数据协调到观察性医疗结果合作通用数据模型的过程

2026-05-22 · 返回目录

为何汇聚癌症数据至关重要

癌症护理会产生来自医院、登记处、实验室，甚至患者问卷的大量信息，但这些记录通常以不同格式存储，彼此难以“对话”。本文解释了研究者如何设计一个清晰的逐步流程，将这些分散的癌症信息转为单一且组织良好的格式，从而更可靠地用于治疗模式、生存率和人群健康的研究。

多个数据孤岛，而非一幅共享全景

癌症数据异常详尽，描述肿瘤类型、分期、基因标志物、随时间的治疗、药物副作用和结局等，来源包括电子病历、癌症登记、保险理赔、生物样本库和问卷等。由于每个来源使用不同的结构和命名规则，合并困难，常导致信息缺失或含义丢失。观察性医疗结果合作通用数据模型（OMOP CDM）为健康数据提供了共享结构，且在全球范围内被日益采用。然而，关于如何将癌症数据迁入该模型的现有指南较为笼统，团队往往需要自行设计本地解决方案。

Figure 1. 把来自多个来源的分散癌症记录转换为一个共享且组织良好的研究数据集。

以往项目揭示的经验

作者回顾了20个项目，这些项目来自学术期刊和国际数据科学社区的报告，曾尝试将癌症数据转换为 OMOP 格式。大多数项目要么侧重于患者层面的研究，如特定治疗的结局评估，要么关注群体层面的问题，如生存趋势和疾病监测。癌症登记和医院记录是最常见的数据来源，通常来自欧洲中心，美洲和亚洲的实例较少。许多团队使用 OMOP 社区的专用软件工具来探索源数据、设计映射、检查质量并推导治疗方案，但他们组织工作的方式差异很大。

反复出现的主要障碍

在这些项目中，三类问题反复出现。首先，起始数据混乱或不完整：重要细节缺失、记录为自由文本或分散在多个系统中，合并多个来源需要大量清理和整理。其次，将本地编码和描述映射到 OMOP 标准术语难度大，尤其是对于分期、标志物结果和复杂药物组合等丰富的癌症细节；标准词汇有时不够细化，自由文本或基因组数据需要额外工具和专家参与。第三，一旦建立了映射，它并非静态；通用数据模型、词汇表和工具更新迅速，团队需要规划以保持系统随时间更新。

为团队提供的五步路线图

基于回顾中总结的模式和癌症数据专家的反馈，作者提炼出一个针对肿瘤学的通用五步协调流程。第一步“启动”（Initiation）包括组建跨学科团队、明确研究目标、了解本地规则并熟悉 OMOP 生态。需求分析（Requirement Analysis）深入审查源数据：数据类型、结构、完整性与可信度，以及最大风险所在。设计规划（Design Planning）将这些认知转化为详细的转换与映射计划，包括使用哪些工具、如何处理诸如治疗过程等就诊序列，以及如何评估成效。

Figure 2. 逐步清理和对齐原始癌症记录，形成可追溯每位患者随时间演变的关联就诊序列。

从原始记录到可用的研究数据

第四步“技术实施”（Technical Implementation）将计划付诸实践。团队在此阶段清理并整理数据、提取相关要素、将其转换为 OMOP 表并以系统化方式进行质量检查。特别重视使用 OMOP 表构建每位患者癌症历程的时间线，这些表表示就诊序列及其关联事件，如诊断、操作和药物暴露。第五步“维护”（Maintenance）认识到工作永无止境：词汇、软件工具和肿瘤学知识都在变化，因此团队必须安排更新、监控新问题并不断细化映射与约定。两个贯穿始终的原则支撑所有步骤：反复的测试与改进循环，以及对决策进行详尽记录，以确保工作的透明性与可复用性。

对患者和研究者的意义

对普通读者而言，核心信息是：更好地利用现有癌症数据，不在于新的设备，而在于谨慎且共享的信息组织方法。本文提供了一个可被任何医院或研究机构采用的实用路线图，帮助将分散的癌症记录整合为通用格式，同时尊重本地规则与技术。通过简化跨中心和跨国汇聚数据的过程，该流程旨在支持更可靠的研究，了解癌症的治疗方式与患者在日常实践中的结局，帮助临床医生与决策者在更清晰、更完整的基础上作出判断。

引用: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9

关键词: 癌症数据, OMOP 通用数据模型, 数据协调, 真实世界证据, 健康信息学