Clear Sky Science · de

Datenharmonisierungsprozesse von Krebsdaten in das Observational Medical Outcomes Partnership Common Data Model

2026-05-22 · Zurück zur Übersicht

Warum das Zusammenführen von Krebsdaten wichtig ist

Krebsversorgung erzeugt große Mengen an Informationen aus Krankenhäusern, Registern, Laboren und sogar Patientenbefragungen, doch diese Aufzeichnungen werden häufig in unterschiedlichen Formaten gespeichert, die nur schwer miteinander „kommunizieren“ können. Dieser Artikel erklärt, wie Forschende einen klaren, schrittweisen Prozess entwarfen, um diese verstreuten Krebsinformationen in ein einziges, gut organisiertes Format zu überführen, damit sie zuverlässiger für Studien zu Behandlungsmustern, Überleben und Bevölkerungsgesundheit genutzt werden können.

Zahlreiche Dateninseln statt eines gemeinsamen Bildes

Krebsdaten sind außergewöhnlich detailliert. Sie beschreiben Tumortyp, Stadium, genetische Marker, Behandlungen über die Zeit, Nebenwirkungen und Ergebnisse und stammen aus vielen Quellen wie elektronischen Krankenakten, Krebsregistern, Abrechnungsdaten, Biobanken und Fragebögen. Da jede Quelle ihre eigene Struktur und Benennungsregeln nutzt, ist das Zusammenführen schwierig und führt oft zu Lücken oder Bedeutungsverlust. Das Observational Medical Outcomes Partnership Common Data Model, kurz OMOP CDM, bietet eine gemeinsame Struktur für Gesundheitsdaten und wird weltweit zunehmend eingesetzt. Bestehende Leitlinien, wie Krebsdaten in dieses Modell überführt werden können, waren jedoch bislang allgemein gehalten, sodass Teams oft eigene lokale Lösungen entwickeln mussten.

Figure 1. Zerstreute Krebsaufzeichnungen aus vielen Quellen in einen gemeinsamen, gut organisierten Forschungsdatensatz überführen.

Was frühere Projekte zeigen

Die Autor:innen analysierten 20 Projekte aus Fachzeitschriften und Präsentationen einer internationalen Data-Science-Community, die bereits versucht hatten, Krebsdaten in das OMOP-Format zu konvertieren. Die meisten konzentrierten sich entweder auf patientenbezogene Forschung, etwa zur Bewertung von Ergebnissen bestimmter Behandlungen, oder auf bevölkerungsbezogene Fragestellungen wie Überlebenstrends und Krankheitsüberwachung. Krebsregister und Krankenhausakten waren die häufigsten Datenquellen, meist aus europäischen Zentren, seltener aus Amerika und Asien. Viele Teams nutzten spezialisierte Werkzeuge aus der OMOP-Community, um Quelldaten zu erkunden, Mappings zu entwerfen, Qualität zu prüfen und Behandlungsregime abzuleiten, doch die Art und Weise, wie sie ihre Arbeit organisierten, variierte stark.

Zentrale Hindernisse, die immer wieder auftauchen

In diesen Projekten traten drei Problemarten immer wieder auf. Erstens waren die Ausgangsdaten unordentlich oder unvollständig: Wichtige Details fehlten, waren als Freitext gespeichert oder über mehrere Systeme verteilt, und das Kombinieren mehrerer Quellen erforderte umfangreiche Bereinigung und Kuratierung. Zweitens war die Zuordnung lokaler Codes und Beschreibungen zu standardisierten OMOP-Begriffen schwierig, insbesondere für reichhaltige Krebsinformationen wie Stadien, Biomarker‑Ergebnisse und komplexe Wirkstoffkombinationen; die Standardvokabulare waren teilweise nicht fein genug, und Freitext- oder Genomdaten brauchten zusätzliche Werkzeuge und Expert:inneninput. Drittens blieb eine einmal erstellte Zuordnung nicht statisch: Das Common Data Model, die Vokabulare und Werkzeuge entwickeln sich schnell weiter, weshalb Teams Pläne brauchten, ihre Systeme langfristig aktuell zu halten.

Eine fünfstufige Roadmap für Teams

Anhand der Muster aus der Übersicht und des Feedbacks von Expert:innen für Krebsdaten formulierten die Autor:innen einen generischen, auf die Onkologie zugeschnittenen fünfstufigen Harmonisierungsvorgang. Der erste Schritt, Initiierung, umfasst die Bildung eines interdisziplinären Teams, die Abstimmung des Forschungsziels, das Verständnis lokaler Vorgaben und die Einarbeitung in das OMOP‑Ökosystem. Die Anforderungsanalyse untersucht daraufhin die Quelldaten genauer: Welche Datentypen existieren, wie sind sie strukturiert, wie vollständig und vertrauenswürdig sind sie und wo liegen die größten Risiken. Die Designplanung übersetzt dieses Verständnis in einen detaillierten Plan, wie die Daten transformiert und gemappt werden sollen, welche Werkzeuge zu verwenden sind, wie Versorgungs‑Episoden wie Behandlungsläufe gehandhabt werden und wie der Erfolg zu bewerten ist.

Figure 2. Schrittweise Bereinigung und Angleichung roher Krebsdaten zu verknüpften Episoden, die die Versorgung jedes Patienten über die Zeit nachzeichnen.

Von Rohaufzeichnungen zu nutzbaren Forschungsdaten

Der vierte Schritt, Technische Implementierung, setzt den Plan in die Tat um. Hier bereinigen und kuratieren die Teams die Daten, extrahieren relevante Informationen, transformieren sie in die OMOP-Tabellen und prüfen systematisch die Qualität. Besonderes Augenmerk gilt dem Aufbau von Zeitlinien für die Krebsverläufe einzelner Patient:innen unter Verwendung der OMOP‑Tabellen, die Episoden und deren verknüpfte Ereignisse wie Diagnosen, Prozeduren und Medikamentenexpositionen abbilden. Der fünfte Schritt, Wartung, erkennt an, dass die Arbeit nie abgeschlossen ist: Vokabulare, Softwarewerkzeuge und onkologisches Wissen verändern sich, sodass Teams Updates planen, neue Probleme überwachen und ihre Mappings und Konventionen verfeinern müssen. Zwei übergreifende Prinzipien unterstützen alle Schritte: wiederholte Zyklen von Testen und Verbesserung sowie sorgfältige Dokumentation von Entscheidungen, damit die Arbeit transparent und wiederverwendbar bleibt.

Was das für Patient:innen und Forschende bedeutet

Für interessierte Laien ist die Kernbotschaft, dass die bessere Nutzung vorhandener Krebsdaten weniger von neuen Geräten abhängt als von sorgfältigen, geteilten Methoden zur Organisation von Informationen. Dieser Artikel liefert eine praxisnahe Roadmap, die jedes Krankenhaus oder jede Forschungsgruppe anpassen kann, um verstreute Krebsaufzeichnungen in ein gemeinsames Format zu überführen und zugleich lokale Vorgaben und Technologien zu respektieren. Indem das Zusammenführen von Daten über Zentren und Länder hinweg erleichtert wird, zielt der vorgeschlagene Prozess darauf ab, zuverlässigere Studien zu unterstützen — zu Behandlungspraktiken und zum tatsächlichen Verlauf für Patient:innen im Alltag — und so Klinikern und politischen Entscheidungsträgern eine klarere und vollständigere Grundlage für Entscheidungen zu bieten.

Zitation: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9

Schlüsselwörter: Krebsdaten, OMOP Common Data Model, Datenharmonisierung, Real-World-Evidence, Gesundheitsinformatik