Clear Sky Science · pl
Procesy harmonizacji danych o nowotworach do wspólnego modelu danych Observational Medical Outcomes Partnership
Dlaczego łączenie danych o nowotworach ma znaczenie
Opieka onkologiczna generuje ogromne ilości informacji z szpitali, rejestrów, laboratoriów, a nawet ankiet wypełnianych przez pacjentów, jednak te zapisy są często przechowywane w różnych formatach, które trudno ze sobą „porównać”. Artykuł wyjaśnia, jak badacze zaprojektowali jasny, etapowy proces przekształcania rozproszonych informacji o nowotworach w jeden, dobrze uporządkowany format, dzięki czemu można je stosować bardziej wiarygodnie w badaniach nad schematami leczenia, przeżywalnością i zdrowiem populacji.
Wiele wysp danych zamiast jednego wspólnego obrazu
Dane onkologiczne są niezwykle szczegółowe. Opisują typ guza, stadium, markery genetyczne, leczenia w czasie, działania niepożądane i wyniki, i pochodzą z wielu miejsc, takich jak elektroniczne dokumentacje medyczne, rejestry nowotworów, rozliczenia ubezpieczeniowe, biobanki i ankiety. Ponieważ każde źródło stosuje własną strukturę i nazewnictwo, ich połączenie jest trudne i często prowadzi do luk lub utraty znaczenia. Wspólny model danych Observational Medical Outcomes Partnership, czyli OMOP CDM, oferuje wspólną strukturę dla danych zdrowotnych i jest coraz szerzej wykorzystywany na świecie. Jednak dotychczasowe wytyczne dotyczące przenoszenia danych onkologicznych do tego modelu były ogólne, pozostawiając zespołom opracowanie lokalnych rozwiązań.

Co pokazują wcześniejsze projekty
Autorzy przejrzeli 20 projektów, pochodzących z artykułów naukowych i prezentacji międzynarodowej społeczności nauki o danych, które już próbowały konwertować dane o nowotworach do formatu OMOP. Większość skupiała się na badaniach na poziomie pacjenta, takich jak analiza wyników konkretnych terapii, albo na pytaniach dotyczących populacji, jak trendy przeżywalności i monitorowanie chorób. Rejestry nowotworów i dokumentacja szpitalna były najczęstszymi źródłami danych, zwykle z ośrodków europejskich, z mniejszą liczbą przykładów z obu Ameryk i Azji. Wiele zespołów korzystało ze specjalistycznych narzędzi społeczności OMOP do badania danych źródłowych, projektowania mapowań, kontroli jakości i wyprowadzania schematów leczenia, ale sposoby organizacji pracy znacznie się różniły.
Kluczowe przeszkody, które się powtarzają
W tych projektach wielokrotnie pojawiały się trzy rodzaje problemów. Po pierwsze, dane wyjściowe były chaotyczne lub niekompletne: istotne szczegóły brakowało, były zapisane w tekście swobodnym lub rozproszone w kilku systemach, a łączenie wielu źródeł wymagało intensywnego oczyszczania i kuracji. Po drugie, mapowanie lokalnych kodów i opisów na standardowe terminy OMOP było trudne, szczególnie dla bogatych informacji onkologicznych, takich jak stadia choroby, wyniki badań biomarkerów czy złożone kombinacje leków; standardowe słowniki nie zawsze były wystarczająco szczegółowe, a tekst swobodny czy dane genomowe wymagały dodatkowych narzędzi i wiedzy ekspertów. Po trzecie, po zbudowaniu mapowania nie pozostawało ono stałe; model danych, słownictwa i narzędzia szybko się rozwijają, więc zespoły musiały planować utrzymanie systemów na bieżąco.
Pięcioetapowa mapa drogowa dla zespołów
Wykorzystując wzorce z przeglądu i opinie ekspertów od danych onkologicznych, autorzy wyodrębnili ogólny, pięcioetapowy proces harmonizacji dostosowany do onkologii. Pierwszy etap, Inicjacja, obejmuje utworzenie zespołu interdyscyplinarnego, uzgodnienie celu badawczego, zrozumienie lokalnych reguł oraz zapoznanie się z ekosystemem OMOP. Analiza wymagań następnie bada dane źródłowe: jakiego rodzaju dane istnieją, jak są zorganizowane, jak kompletne i wiarygodne są oraz gdzie leżą największe ryzyka. Planowanie projektu przekłada to zrozumienie na szczegółowy plan transformacji i mapowania danych, jakie narzędzia zastosować, jak obsługiwać epizody opieki takie jak kursy leczenia oraz jak oceniać powodzenie.

Od surowych zapisów do użytecznych danych badawczych
Czwarty etap, Wdrożenie techniczne, wprowadza plan w życie. Zespoły oczyszczają i kuratorują dane, wyodrębniają istotne elementy, transformują je do tabel OMOP i systematycznie sprawdzają jakość. Szczególną uwagę poświęca się budowaniu osi czasu przebiegu choroby każdego pacjenta z użyciem tabel OMOP reprezentujących epizody i powiązane zdarzenia, takie jak rozpoznania, procedury i ekspozycje na leki. Piąty etap, Utrzymanie, uznaje, że praca nigdy się nie kończy: słownictwa, narzędzia programowe i wiedza onkologiczna się zmieniają, więc zespoły muszą planować aktualizacje, monitorować nowe problemy i doskonalić mapowania oraz konwencje. Dwa zasady przekrojowe wspierają wszystkie etapy: cykliczne testowanie i ulepszanie oraz staranna dokumentacja decyzji, by praca była przejrzysta i wielokrotnego użytku.
Co to oznacza dla pacjentów i badaczy
Dla czytelników niebędących specjalistami główne przesłanie jest takie, że lepsze wykorzystanie istniejących danych o nowotworach zależy mniej od nowych gadżetów, a bardziej od starannych, wspólnych metod organizowania informacji. Artykuł proponuje praktyczną mapę drogową, którą każdy szpital czy grupa badawcza może dostosować, aby scentralizować rozproszone zapisy onkologiczne w wspólnym formacie, z poszanowaniem lokalnych zasad i technologii. Ułatwiając łączenie danych między ośrodkami i krajami, proponowany proces ma wesprzeć bardziej wiarygodne badania nad tym, jak leczy się nowotwory i jak pacjenci radzą sobie w codziennej praktyce, pomagając klinicystom i decydentom opierać decyzje na jaśniejszym i pełniejszym obrazie.
Cytowanie: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9
Słowa kluczowe: dane o nowotworach, OMOP common data model, harmonizacja danych, real world evidence, informatyka medyczna