Clear Sky Science · it
Processi di armonizzazione dei dati sul cancro nel modello di dati comune OMOP
Perché è importante unire i dati sul cancro
La cura del cancro genera grandi quantità di informazioni da ospedali, registri, laboratori e persino questionari ai pazienti, ma questi record sono spesso conservati in formati diversi che non riescono facilmente a "dialogare" tra loro. Questo articolo spiega come i ricercatori abbiano progettato un processo chiaro, passo dopo passo, per trasformare queste informazioni oncologiche disperse in un unico formato ben organizzato, in modo che possano essere usate in modo più affidabile per studi su schemi di trattamento, sopravvivenza e salute della popolazione.
Molte isole di dati invece di un quadro condiviso
I dati oncologici sono particolarmente dettagliati. Descrivono il tipo di tumore, lo stadio, i marker genetici, i trattamenti nel tempo, gli effetti collaterali e gli esiti, e provengono da molte fonti come cartelle cliniche elettroniche, registri tumorali, dati assicurativi, biobanche e questionari. Poiché ogni fonte usa una propria struttura e regole di nomenclatura, combinarle è difficile e spesso porta a lacune o perdita di significato. L’Observational Medical Outcomes Partnership Common Data Model, o OMOP CDM, offre una struttura condivisa per i dati sanitari ed è sempre più usato a livello mondiale. Tuttavia, le indicazioni esistenti su come trasferire i dati oncologici in questo modello sono state generiche, lasciando i team a inventare soluzioni locali.

Cosa rivelano i progetti precedenti
Gli autori hanno esaminato 20 progetti, tratti da riviste scientifiche e presentazioni di una comunità internazionale di data science, che avevano già tentato di convertire dati oncologici nel formato OMOP. La maggior parte si è concentrata o su ricerche a livello di singolo paziente, come lo studio degli esiti di specifici trattamenti, o su questioni a livello di popolazione come tendenze di sopravvivenza e monitoraggio delle malattie. I registri tumorali e i record ospedalieri sono state le fonti più comuni, solitamente da centri europei, con meno esempi dalle Americhe e dall’Asia. Molti gruppi hanno utilizzato strumenti software specializzati dalla comunità OMOP per esplorare i dati di origine, progettare le mappature, controllare la qualità e ricavare regimi di trattamento, ma le modalità con cui hanno organizzato il lavoro sono risultate molto diverse.
Ostacoli chiave che ricompaiono
Attraverso questi progetti sono emersi ripetutamente tre tipi di problemi. Primo, i dati di partenza erano disordinati o incompleti: dettagli importanti mancavano, erano memorizzati in testo libero o distribuiti su più sistemi, e la combinazione di più fonti richiedeva intensa pulizia e cura. Secondo, mappare codici e descrizioni locali ai termini standard OMOP era difficile, specialmente per dettagli oncologici ricchi come stadiazione, risultati di biomarker e combinazioni farmacologiche complesse; i vocabolari standard a volte non erano sufficientemente dettagliati e testo libero o dati genomici necessitavano di strumenti aggiuntivi e competenze esperte. Terzo, una volta costruita una mappatura, questa non restava immutabile: il modello di dati comune, i vocabolari e gli strumenti evolvono rapidamente, quindi i team avevano bisogno di piani per mantenere i sistemi aggiornati nel tempo.
Una roadmap in cinque fasi per i team
Usando i pattern emersi dalla revisione e il feedback di esperti di dati oncologici, gli autori hanno distillato un processo generico di armonizzazione in cinque fasi su misura per l’oncologia. La prima fase, Avvio, include la formazione di un team interdisciplinare, l’accordo sullo scopo della ricerca, la comprensione delle regole locali e l’acquisizione di familiarità con l’ecosistema OMOP. L’Analisi dei requisiti poi approfondisce i dati di origine: quali tipi di dati esistono, come sono strutturati, quanto sono completi e affidabili e dove risiedono i rischi maggiori. La Pianificazione del progetto traduce questa comprensione in un piano dettagliato su come trasformare e mappare i dati, quali strumenti usare, come gestire gli episodi di cura come i cicli di trattamento e come valutare il successo.

Da record grezzi a dati utili per la ricerca
La quarta fase, Implementazione tecnica, mette il piano in pratica. Qui i team puliscono e curano i dati, estraggono le parti rilevanti, le trasformano nelle tabelle OMOP e verificano la qualità in modo sistematico. Particolare attenzione è data alla costruzione delle timeline del percorso oncologico di ciascun paziente usando le tabelle OMOP che rappresentano gli episodi e gli eventi collegati, come diagnosi, procedure ed esposizioni farmacologiche. La quinta fase, Manutenzione, riconosce che il lavoro non è mai concluso: i vocabolari, gli strumenti software e le conoscenze in oncologia cambiano, quindi i team devono pianificare aggiornamenti, monitorare nuovi problemi e perfezionare le mappature e le convenzioni. Due principi trasversali supportano tutte le fasi: cicli ripetuti di test e miglioramento, e una documentazione accurata delle decisioni affinché il lavoro sia trasparente e riutilizzabile.
Cosa significa per pazienti e ricercatori
Per i lettori non esperti, il messaggio principale è che un miglior uso dei dati oncologici esistenti dipende meno da nuovi dispositivi e più da metodi condivisi e accurati per organizzare le informazioni. Questo articolo offre una roadmap pratica che qualsiasi ospedale o gruppo di ricerca può adattare per portare record oncologici dispersi in un formato comune, rispettando le regole e le tecnologie locali. Rendendo più semplice aggregare i dati tra centri e paesi, il processo proposto mira a supportare studi più affidabili su come i tumori vengono trattati e su come i pazienti se la cavano nella pratica quotidiana, aiutando clinici e decisori a basare le loro scelte su un quadro più chiaro e completo.
Citazione: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9
Parole chiave: dati sul cancro, modello di dati comune OMOP, armonizzazione dei dati, evidenza dal mondo reale, informatica sanitaria