Clear Sky Science · es
Procesos de armonización de datos oncológicos en el modelo común de datos Observational Medical Outcomes Partnership
Por qué importa reunir los datos oncológicos
La atención oncológica genera grandes volúmenes de información procedentes de hospitales, registros, laboratorios e incluso cuestionarios de pacientes, pero estos registros suelen almacenarse en formatos distintos que no pueden "comunicarse" con facilidad. Este artículo explica cómo los investigadores diseñaron un proceso claro, paso a paso, para convertir esta información oncológica dispersa en un formato único y bien organizado, de modo que pueda usarse con mayor fiabilidad en estudios sobre patrones de tratamiento, supervivencia y salud poblacional.
Muchos islotes de datos en lugar de una imagen compartida
Los datos oncológicos son excepcionalmente detallados. Describen el tipo de tumor, la etapa, marcadores genéticos, tratamientos a lo largo del tiempo, efectos secundarios y resultados, y proceden de múltiples fuentes como registros electrónicos de salud, registros de cáncer, reclamaciones de seguros, biobancos y cuestionarios. Debido a que cada fuente utiliza su propia estructura y reglas de nomenclatura, combinarlas es difícil y a menudo provoca huecos o pérdida de significado. El Observational Medical Outcomes Partnership Common Data Model, u OMOP CDM, ofrece una estructura compartida para los datos sanitarios y se usa cada vez más en todo el mundo. Sin embargo, la orientación existente sobre cómo trasladar datos oncológicos a este modelo ha sido general, lo que ha obligado a los equipos a inventar sus propias soluciones locales.

Qué revelan proyectos anteriores
Los autores revisaron 20 proyectos, extraídos de revistas científicas y presentaciones de una comunidad internacional de ciencia de datos, que ya habían intentado convertir datos oncológicos al formato OMOP. La mayoría se centró bien en investigación a nivel de paciente, como estudiar los resultados de tratamientos específicos, bien en preguntas a nivel poblacional como tendencias de supervivencia y vigilancia de enfermedades. Los registros de cáncer y las historias hospitalarias fueron las fuentes de datos más comunes, generalmente de centros europeos, con menos ejemplos de las Américas y Asia. Muchos equipos usaron herramientas de software especializadas de la comunidad OMOP para explorar los datos de origen, diseñar mapeos, verificar la calidad y derivar regímenes de tratamiento, pero las formas en que organizaron su trabajo variaron ampliamente.
Obstáculos clave que siguen apareciendo
En todos estos proyectos surgieron tres tipos de problemas de forma recurrente. Primero, los datos iniciales estaban desordenados o incompletos: faltaban detalles importantes, estaban almacenados en texto libre o dispersos en varios sistemas, y combinar múltiples fuentes exigía una limpieza y curación intensas. Segundo, mapear códigos y descripciones locales a términos estándar de OMOP fue difícil, especialmente para detalles oncológicos ricos como la estadificación, resultados de biomarcadores y combinaciones complejas de fármacos; los vocabularios estándar a veces no eran lo suficientemente finos y el texto libre o los datos genómicos requerían herramientas extra y aporte experto. Tercero, una vez construido un mapeo, no permanecía inmutable; el modelo de datos común, los vocabularios y las herramientas evolucionan rápidamente, por lo que los equipos necesitaban planes para mantener sus sistemas actualizados a lo largo del tiempo.
Una hoja de ruta de cinco pasos para los equipos
Usando patrones extraídos de la revisión y retroalimentación de expertos en datos oncológicos, los autores destilaron un proceso genérico de armonización en cinco pasos adaptado a la oncología. El primer paso, Inicio, cubre la formación de un equipo interdisciplinario, el acuerdo sobre el propósito de la investigación, la comprensión de las normas locales y la familiarización con el ecosistema OMOP. El Análisis de Requisitos profundiza en los datos de origen: qué tipos de datos existen, cómo están estructurados, cuán completos y fiables son y dónde residen los mayores riesgos. La Planificación del Diseño traduce este entendimiento en un plan detallado sobre cómo transformar y mapear los datos, qué herramientas usar, cómo manejar episodios de atención como los cursos de tratamiento y cómo evaluar el éxito.

De registros en bruto a datos útiles para investigación
El cuarto paso, Implementación Técnica, pone el plan en práctica. Aquí los equipos limpian y curan los datos, extraen las piezas relevantes, las transforman a las tablas OMOP y verifican la calidad de forma sistemática. Se presta atención especial a construir líneas temporales del recorrido oncológico de cada paciente usando tablas OMOP que representan episodios y sus eventos vinculados, como diagnósticos, procedimientos y exposiciones a fármacos. El quinto paso, Mantenimiento, reconoce que el trabajo nunca termina: los vocabularios, las herramientas de software y el conocimiento en oncología cambian, por lo que los equipos deben programar actualizaciones, monitorizar nuevos problemas y refinar sus mapeos y convenciones. Dos principios transversales sostienen todos los pasos: ciclos repetidos de prueba y mejora, y una documentación cuidadosa de las decisiones para que el trabajo sea transparente y reutilizable.
Qué implica esto para pacientes e investigadores
Para un público general, el mensaje principal es que un mejor aprovechamiento de los datos oncológicos existentes depende menos de dispositivos nuevos y más de métodos compartidos y cuidadosos para organizar la información. Este artículo ofrece una hoja de ruta práctica que cualquier hospital o grupo de investigación puede adaptar para reunir registros oncológicos dispersos en un formato común, respetando las normas y la tecnología locales. Al facilitar la agregación de datos entre centros y países, el proceso propuesto pretende apoyar estudios más fiables sobre cómo se tratan los cánceres y cómo evolucionan los pacientes en la práctica cotidiana, ayudando a que clínicos y responsables de políticas basen sus decisiones en una imagen más clara y completa.
Cita: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9
Palabras clave: datos de cáncer, modelo común de datos OMOP, armonización de datos, evidencia del mundo real, informática de la salud