Clear Sky Science · sv

Processer för dataharmonisering av cancerdata till Observational Medical Outcomes Partnerships gemensamma datamodell

2026-05-22 · Tillbaka till index

Varför det spelar roll att föra samman cancerdata

Cancervård genererar enorma mängder information från sjukhus, register, laboratorier och även patientenkäter, men dessa uppgifter lagras ofta i olika format som inte lätt kan "prata" med varandra. Denna artikel förklarar hur forskare utformade en tydlig, stegvis process för att omvandla denna utspridda cancerinformation till ett enda, välorganiserat format så att den kan användas mer tillförlitligt för studier av behandlingsmönster, överlevnad och folkhälsa.

Många dataöar i stället för en samlad bild

Cancerdata är ovanligt detaljerade. De beskriver tumörtyp, stadium, genetiska markörer, behandlingar över tid, biverkningar och utfall, och de kommer från många platser såsom elektroniska journaler, cancerregister, försäkringsanspråk, biobanker och frågeformulär. Eftersom varje källa använder sin egen struktur och sina egna namngivningsregler är det svårt att kombinera dem, vilket ofta leder till luckor eller förlust av betydelse. Observational Medical Outcomes Partnership Common Data Model, eller OMOP CDM, erbjuder en gemensam struktur för hälsoinformation och används i allt större utsträckning världen över. Existerande vägledning för hur man överför cancerdata till denna modell har dock varit allmän, vilket tvingat team att ta fram egna lokala lösningar.

Figure 1. Att omvandla utspridda cancerjournaler från många källor till en gemensam, välorganiserad forskningsdatamängd.

Vad tidigare projekt visar

Författarna granskade 20 projekt, hämtade från vetenskapliga tidskrifter och presentationer från ett internationellt datavetenskapligt community, som redan försökt konvertera cancerdata till OMOP-formatet. De flesta fokuserade antingen på patientnivåforskning, såsom att studera utfall av specifika behandlingar, eller på populationsfrågor som överlevnadstrender och sjukdomsövervakning. Cancerregister och sjukhusjournaler var de vanligaste datakällorna, oftast från europeiska centra, med färre exempel från Amerika och Asien. Många team använde specialiserade mjukvaruverktyg från OMOP-communityt för att utforska källdata, designa kopplingar, kontrollera kvalitet och härleda behandlingsregimer, men sättet de organiserade arbetet på varierade kraftigt.

Viktiga hinder som återkommer

Över dessa projekt framträdde tre typer av problem gång på gång. För det första var startdata röriga eller ofullständiga: viktiga detaljer saknades, fanns i fri text eller var spridda över flera system, och att kombinera flera källor krävde omfattande rensning och kuratering. För det andra var det svårt att mappa lokala koder och beskrivningar till standardtermer i OMOP, särskilt för rika cancerdetaljer som stadieindelning, biomarkörsresultat och komplexa läkemedelskombinationer; de standardiserade vokabulären var ibland inte tillräckligt finmaskiga, och fri text eller genomiska data behövde extra verktyg och expertinsats. För det tredje, när en mappning väl var byggd så stod den inte stilla; den gemensamma datamodellen, vokabulärerna och verktygen utvecklas snabbt, så team behövde planer för att hålla sina system uppdaterade över tid.

En femstegs färdplan för team

Med utgångspunkt i mönster från granskningen och återkoppling från cancerdataexperter destillerade författarna en generisk femstegs-harmoniseringsprocess anpassad för onkologi. Det första steget, Initiering, täcker att bilda ett tvärvetenskapligt team, enas om forskningssyftet, förstå lokala regler och bekanta sig med OMOP-ekosystemet. Kravanalys gräver sedan i källdata: vilka typer av data finns, hur de är strukturerade, hur fullständiga och tillförlitliga de är och var de största riskerna ligger. Designplanering översätter denna förståelse till en detaljerad plan för hur data ska transformeras och mappas, vilka verktyg som ska användas, hur vårdepisoder såsom behandlingsserier ska hanteras och hur framgång ska utvärderas.

Figure 2. Stegvis rensning och anpassning av råa cancerregister till sammanlänkade episoder som spårar varje patients vårdförlopp över tid.

Från råa register till användbara forskningsdata

Det fjärde steget, Teknisk implementering, omsätter planen i praktiken. Här rensar och kuraterar teamen data, extraherar relevanta delar, transformerar dem till OMOP-tabeller och kontrollerar kvalitet på ett systematiskt sätt. Särskild uppmärksamhet ägnas åt att bygga tidslinjer över varje patients cancerresa med OMOP-tabeller som representerar episoder och deras länkade händelser, såsom diagnoser, procedurer och läkemedelsexponeringar. Det femte steget, Underhåll, erkänner att arbetet aldrig är klart: vokabulärerna, mjukvaruverktygen och onkologikunskapen förändras, så team måste planera uppdateringar, övervaka nya problem och förfina sina mappningar och konventioner. Två genomgående principer stödjer alla steg: upprepade cykler av testning och förbättring samt noggrann dokumentation av beslut så att arbetet blir transparent och återanvändbart.

Vad detta betyder för patienter och forskare

För allmänheten är huvudbudskapet att bättre användning av befintliga cancerdata handlar mindre om nya prylar och mer om omsorgsfulla, gemensamma metoder för att organisera information. Denna artikel erbjuder en praktisk färdplan som vilket sjukhus eller forskargrupp som helst kan anpassa för att föra samman utspridda cancerregister i ett gemensamt format, samtidigt som lokala regler och teknik respekteras. Genom att göra det enklare att poola data över centra och länder syftar den föreslagna processen till att stödja mer tillförlitliga studier om hur cancer behandlas och hur patienter klarar sig i vardaglig praxis, vilket hjälper kliniker och beslutsfattare att grunda sina val på en klarare och mer fullständig bild.

Citering: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9

Nyckelord: cancerdata, OMOP common data model, dataharmonisering, real world evidence, hälsoinformatik