Clear Sky Science · pl

Procesy harmonizacji danych o nowotworach do wspólnego modelu danych Observational Medical Outcomes Partnership

· Powrót do spisu

Dlaczego łączenie danych o nowotworach ma znaczenie

Opieka onkologiczna generuje ogromne ilości informacji z szpitali, rejestrów, laboratoriów, a nawet ankiet wypełnianych przez pacjentów, jednak te zapisy są często przechowywane w różnych formatach, które trudno ze sobą „porównać”. Artykuł wyjaśnia, jak badacze zaprojektowali jasny, etapowy proces przekształcania rozproszonych informacji o nowotworach w jeden, dobrze uporządkowany format, dzięki czemu można je stosować bardziej wiarygodnie w badaniach nad schematami leczenia, przeżywalnością i zdrowiem populacji.

Wiele wysp danych zamiast jednego wspólnego obrazu

Dane onkologiczne są niezwykle szczegółowe. Opisują typ guza, stadium, markery genetyczne, leczenia w czasie, działania niepożądane i wyniki, i pochodzą z wielu miejsc, takich jak elektroniczne dokumentacje medyczne, rejestry nowotworów, rozliczenia ubezpieczeniowe, biobanki i ankiety. Ponieważ każde źródło stosuje własną strukturę i nazewnictwo, ich połączenie jest trudne i często prowadzi do luk lub utraty znaczenia. Wspólny model danych Observational Medical Outcomes Partnership, czyli OMOP CDM, oferuje wspólną strukturę dla danych zdrowotnych i jest coraz szerzej wykorzystywany na świecie. Jednak dotychczasowe wytyczne dotyczące przenoszenia danych onkologicznych do tego modelu były ogólne, pozostawiając zespołom opracowanie lokalnych rozwiązań.

Figure 1. Zamiana rozproszonych zapisów o nowotworach z wielu źródeł w jeden wspólny, dobrze zorganizowany zbiór danych badawczych.
Figure 1. Zamiana rozproszonych zapisów o nowotworach z wielu źródeł w jeden wspólny, dobrze zorganizowany zbiór danych badawczych.

Co pokazują wcześniejsze projekty

Autorzy przejrzeli 20 projektów, pochodzących z artykułów naukowych i prezentacji międzynarodowej społeczności nauki o danych, które już próbowały konwertować dane o nowotworach do formatu OMOP. Większość skupiała się na badaniach na poziomie pacjenta, takich jak analiza wyników konkretnych terapii, albo na pytaniach dotyczących populacji, jak trendy przeżywalności i monitorowanie chorób. Rejestry nowotworów i dokumentacja szpitalna były najczęstszymi źródłami danych, zwykle z ośrodków europejskich, z mniejszą liczbą przykładów z obu Ameryk i Azji. Wiele zespołów korzystało ze specjalistycznych narzędzi społeczności OMOP do badania danych źródłowych, projektowania mapowań, kontroli jakości i wyprowadzania schematów leczenia, ale sposoby organizacji pracy znacznie się różniły.

Kluczowe przeszkody, które się powtarzają

W tych projektach wielokrotnie pojawiały się trzy rodzaje problemów. Po pierwsze, dane wyjściowe były chaotyczne lub niekompletne: istotne szczegóły brakowało, były zapisane w tekście swobodnym lub rozproszone w kilku systemach, a łączenie wielu źródeł wymagało intensywnego oczyszczania i kuracji. Po drugie, mapowanie lokalnych kodów i opisów na standardowe terminy OMOP było trudne, szczególnie dla bogatych informacji onkologicznych, takich jak stadia choroby, wyniki badań biomarkerów czy złożone kombinacje leków; standardowe słowniki nie zawsze były wystarczająco szczegółowe, a tekst swobodny czy dane genomowe wymagały dodatkowych narzędzi i wiedzy ekspertów. Po trzecie, po zbudowaniu mapowania nie pozostawało ono stałe; model danych, słownictwa i narzędzia szybko się rozwijają, więc zespoły musiały planować utrzymanie systemów na bieżąco.

Pięcioetapowa mapa drogowa dla zespołów

Wykorzystując wzorce z przeglądu i opinie ekspertów od danych onkologicznych, autorzy wyodrębnili ogólny, pięcioetapowy proces harmonizacji dostosowany do onkologii. Pierwszy etap, Inicjacja, obejmuje utworzenie zespołu interdyscyplinarnego, uzgodnienie celu badawczego, zrozumienie lokalnych reguł oraz zapoznanie się z ekosystemem OMOP. Analiza wymagań następnie bada dane źródłowe: jakiego rodzaju dane istnieją, jak są zorganizowane, jak kompletne i wiarygodne są oraz gdzie leżą największe ryzyka. Planowanie projektu przekłada to zrozumienie na szczegółowy plan transformacji i mapowania danych, jakie narzędzia zastosować, jak obsługiwać epizody opieki takie jak kursy leczenia oraz jak oceniać powodzenie.

Figure 2. Stopniowe oczyszczanie i wyrównywanie surowych zapisów onkologicznych w powiązane epizody, które śledzą opiekę nad każdym pacjentem w czasie.
Figure 2. Stopniowe oczyszczanie i wyrównywanie surowych zapisów onkologicznych w powiązane epizody, które śledzą opiekę nad każdym pacjentem w czasie.

Od surowych zapisów do użytecznych danych badawczych

Czwarty etap, Wdrożenie techniczne, wprowadza plan w życie. Zespoły oczyszczają i kuratorują dane, wyodrębniają istotne elementy, transformują je do tabel OMOP i systematycznie sprawdzają jakość. Szczególną uwagę poświęca się budowaniu osi czasu przebiegu choroby każdego pacjenta z użyciem tabel OMOP reprezentujących epizody i powiązane zdarzenia, takie jak rozpoznania, procedury i ekspozycje na leki. Piąty etap, Utrzymanie, uznaje, że praca nigdy się nie kończy: słownictwa, narzędzia programowe i wiedza onkologiczna się zmieniają, więc zespoły muszą planować aktualizacje, monitorować nowe problemy i doskonalić mapowania oraz konwencje. Dwa zasady przekrojowe wspierają wszystkie etapy: cykliczne testowanie i ulepszanie oraz staranna dokumentacja decyzji, by praca była przejrzysta i wielokrotnego użytku.

Co to oznacza dla pacjentów i badaczy

Dla czytelników niebędących specjalistami główne przesłanie jest takie, że lepsze wykorzystanie istniejących danych o nowotworach zależy mniej od nowych gadżetów, a bardziej od starannych, wspólnych metod organizowania informacji. Artykuł proponuje praktyczną mapę drogową, którą każdy szpital czy grupa badawcza może dostosować, aby scentralizować rozproszone zapisy onkologiczne w wspólnym formacie, z poszanowaniem lokalnych zasad i technologii. Ułatwiając łączenie danych między ośrodkami i krajami, proponowany proces ma wesprzeć bardziej wiarygodne badania nad tym, jak leczy się nowotwory i jak pacjenci radzą sobie w codziennej praktyce, pomagając klinicystom i decydentom opierać decyzje na jaśniejszym i pełniejszym obrazie.

Cytowanie: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9

Słowa kluczowe: dane o nowotworach, OMOP common data model, harmonizacja danych, real world evidence, informatyka medyczna