Clear Sky Science · de
Eine Fallstudie zum Vergleich anonymisierter und synthetischer Krankenversicherungsabrechnungsdaten für Bewertungen der Medikamentensicherheit
Warum das für alltägliche Gesundheitsdaten wichtig ist
Jedes Mal, wenn Sie einen Arzt aufsuchen oder ein Rezept einlösen, hinterlassen die digitalen Spuren Ihrer Behandlung Einträge in großen Versicherungsdatenbanken. Diese Aufzeichnungen sind Goldgruben, um seltene Arzneimittelnebenwirkungen zu finden und Behandlungsleitlinien zu verbessern – sie enthalten aber auch sehr persönliche Informationen. Diese Studie stellt eine einfache, aber entscheidende Frage: Wenn wir versuchen, die Privatsphäre von Patientinnen und Patienten durch Veränderung dieser Daten zu schützen, können Forschende den daraus gewonnenen medizinischen Ergebnissen noch vertrauen?

Zwei verschiedene Wege, sich in der Menge zu verstecken
Die Forschenden konzentrierten sich auf einen realen Datensatz von Versicherungsabrechnungen über Personen, die wegen venöser Thromboembolien behandelt wurden und gleichzeitig Blutverdünner plus Thrombozytenaggregationshemmer einnahmen. Eine Methode, Anonymisierung genannt, behält die echten Datensätze bei, verwischt oder entfernt jedoch Details, damit einzelne Personen schwerer zu identifizieren sind. Die andere Methode, synthetische Daten, trainiert ein Computermodell mit den Originaldaten und erzeugt dann einen vollständig neuen Datensatz, der denselben Gesamtmustern folgt, ohne reale Personen zu reproduzieren. Das Team erstellte drei geschützte Versionen derselben Daten: eine sehr vorsichtige anonymisierte Version, die jede Variable schützte, eine gezieltere anonymisierte Version basierend auf einer detaillierten Risikoanalyse und eine vollständig synthetische Version.
Wie genau stimmten die Kopien mit den echten Patientinnen und Patienten überein?
Um zu prüfen, wie sehr die geschützten Datensätze dem Original noch ähnelten, verglichen die Autorinnen und Autoren grundlegende Merkmale wie Alter, Geschlecht und häufige Erkrankungen und betrachteten außerdem, wie Variablen zueinander in Beziehung standen. Die stark vorsichtige Anonymisierung verlor mehr als ein Drittel aller Patientendatensätze und entfernte viele Gesundheitsindikatoren vollständig, wodurch das Gleichgewicht zwischen den Behandlungsgruppen verzerrt wurde. Die nach Bedrohung modellierte Anonymisierung entfernte weniger Datensätze und bewahrte die meisten Muster besser. Die synthetischen Daten hielten die ursprüngliche Patientenzahl und erfassten viele Muster gut, verschoben aber manchmal Anteile für bestimmte Erkrankungen oder Medikamentenexpositionen. Bei fortgeschritteneren statistischen Prüfungen zeigten sowohl die bedrohungsbasierte Anonymisierung als auch die synthetischen Daten insgesamt eine starke Ähnlichkeit mit den Originaldaten, während die sehr strenge Anonymisierung dem Ausgangsdatenbestand am wenigsten ähnelte.

Konnte die ursprüngliche Sicherheitsstudie reproduziert werden?
Die zugrunde liegende klinische Frage dieser Daten war, ob eine Klasse von oralen direkten Antikoagulanzien sicherer oder riskanter ist als ältere Vitamin-K-Antagonisten, wenn sie zusammen mit Thrombozytenaggregationshemmern eingesetzt werden. Die Studie betrachtete zwei Endpunkte: Todesfälle aus beliebiger Ursache und Episoden schwerer Blutungen. Mit jedem geschützten Datensatz führten die Forschenden dieselben Zeit-zu-Ereignis-Analysen erneut durch, die schätzen, wie stark eine Behandlung das Risiko im Vergleich zur anderen verändert. Alle berechenbaren Hazard-Ratio-Schätzungen lagen innerhalb des ursprünglichen Unsicherheitsbereichs der Studie, was darauf hindeutet, dass sie das medizinische Fazit nicht grundlegend umkehrten. Allerdings verlor die strikt anonymisierte Version so viele Ereignisse, dass einige Blutungsrisiken gar nicht geschätzt werden konnten und die statistische Unsicherheit stark anstieg. Die gezielte Anonymisierung und die synthetischen Daten schnitten besser ab, verschoben aber dennoch die Risikoabschätzungen und vergrößerten die Konfidenzintervalle, insbesondere bei seltenen Blutungsereignissen.
Wie sicher sind die geschützten Datensätze vor neugierigen Blicken?
Als Nächstes prüfte das Team, wie schwer es für einen entschlossenen Angreifer wäre, eine Person zu re-identifizieren oder sensible Gesundheitsdetails zu erschließen. Sie verwendeten moderne „Red-Team“-Tests, die versuchen, Datensätze mit externen Informationen zu verknüpfen, einzelne Personen herauszufiltern, fehlende Attribute zu erraten oder zu erkennen, ob ein Personen-Datensatz zum Aufbau des Datensatzes verwendet wurde. Gegenüber den Originaldaten waren diese Angriffe sehr erfolgreich, was die Notwendigkeit zusätzlicher Schutzmaßnahmen vor einer weiteren Weitergabe unterstreicht. Alle drei geschützten Versionen reduzierten diese Privatrisik en deutlich, sowohl unter einem realistischen, begrenzten Angreiferprofil als auch unter einem aggressiven Worst-Case-Szenario. Die strenge Anonymisierung bot insgesamt den stärksten Schutz, allerdings zu Kosten des größten Informationsverlusts. Die bedrohungsbasierte Anonymisierung und die synthetischen Daten boten einen ausgewogeneren Kompromiss, zeigten jedoch jeweils kleine Bereiche, in denen bestimmte Attribute oder ungewöhnliche Datensätze etwas stärker exponiert waren.
Was das für die Nutzung geschützter Gesundheitsdaten bedeutet
Für diesen kleinen, aber komplexen Abrechnungsdatensatz gewann keine einzelne Schutzstrategie in jeder Hinsicht eindeutig. Stärkerer Datenschutz ging fast immer mit einem schwächeren wissenschaftlichen Signal einher, insbesondere bei seltenen Ereignissen, die in Sicherheitsstudien wichtig sind. Die Autorinnen und Autoren schließen daraus, dass sowohl sorgfältig gestaltete Anonymisierung als auch gut ausgeführte synthetische Daten Versicherungsdaten deutlich sicherer teilbar machen können; geschützte Datensätze dieser Größe eignen sich jedoch am besten zum Testen von Methoden und für Machbarkeitsprüfungen und weniger zum Ziehen endgültiger klinischer Schlüsse. Wann immer möglich, sollten zentrale medizinische Befunde weiterhin anhand der Originaldaten geprüft werden, die streng geregelt sind, und geschützte Versionen als ergänzende Werkzeuge statt als vollständige Ersatzlösungen genutzt werden.
Zitation: Halilovic, M., Meurers, T., Alibone, M. et al. A case study comparing anonymized and synthetic health insurance claims data for medication safety assessments. npj Digit. Med. 9, 321 (2026). https://doi.org/10.1038/s41746-026-02622-5
Schlüsselwörter: Datenschutz im Gesundheitswesen, synthetische Daten, Datenanonymisierung, Forschung zu Versicherungsabrechnungen, Medikationssicherheit