Clear Sky Science · de

Von einer „negativen“ Studie zu positiver klinischer Wirkung: Abschwächung durch Einschlusskriterien verursachter zeitlicher Selektionsverzerrung in emulierten klinischen Studien

2026-05-27 · Zurück zur Übersicht

Warum es darauf ankommt, wer in eine Studie gelangt

Wenn wir hören, dass eine klinische Studie keinen Unterschied zwischen zwei Behandlungen fand, ist es verlockend zu denken, die Sache wäre damit erledigt. Aber was geschieht, wenn Ärztinnen und Ärzte später versuchen, diese Studie mit echten Patientenakten aus der täglichen Versorgung nachzuspielen? Diese Untersuchung zeigt, dass die Regeln darüber, wer in eine solche „Kopierversuch“-Studie aufgenommen werden darf, das Ergebnis still und leise verbiegen können — manchmal stärker als der Zeitverlauf oder Veränderungen in der medizinischen Praxis.

Figure 1. Wie große Studien mit Gesundheitsdaten eine Herzmedikamentenstudie nachspielen und wie die Patientenauswahl das Gesamtergebnis verändert.

Von der kontrollierten Studie ins echte Leben

Die ursprüngliche WARCEF-Studie verglich zwei Blutverdünner, Warfarin und Aspirin, bei Menschen mit Herzinsuffizienz und eingeschränkter Pumpfunktion des Herzens, aber ohne eine häufige Rhythmusstörung namens Vorhofflimmern. In diesem sorgfältig durchgeführten Experiment wurden mehr als 2.300 Freiwillige zufällig einer der beiden Therapien zugewiesen, und die Studie fand keinen klaren Vorteil für die Verhinderung von Sterbefällen. Später rieten Leitlinien davon ab, vergleichbare Patienten routinemäßig langfristig mit Warfarin zu behandeln, sofern kein starker Grund vorlag — zum Teil, weil das geringere Schlaganfallrisiko durch mehr schwere Blutungen ausgeglichen wurde.

WARCEF mit Gesundheitsakten nachspielen

Die neue Studie fragte, was passiert, wenn Forschende versuchen, WARCEF mithilfe elektronischer Gesundheitsakten der Mayo Clinic zu „emulieren“. Statt Medikamente zufällig zuzuweisen, betrachteten sie Tausende von Patientinnen und Patienten, denen im Rahmen der Routineversorgung entweder Aspirin oder Warfarin verordnet worden war, vor und nach dem Abschluss der WARCEF-Studie im Jahr 2014. Sie nutzten statistische Methoden, um offensichtliche Unterschiede zwischen den Gruppen auszugleichen, und verfolgten einen Intention-to-treat-Ansatz, indem sie Personen ihrem Anfangsmedikament zuordneten, auch wenn sich die Therapie später änderte — um die Logik der Originalstudie nachzubilden.

Eine überraschende Verschiebung nach 2014

Auf den ersten Blick deuteten die Ergebnisse auf eine bedeutende Veränderung im Zeitverlauf hin. Unter den vor 2014 behandelten Patienten sah die Untersuchung keinen relevanten Unterschied in den Sterblichkeitsraten zwischen den beiden Medikamenten, was die ursprüngliche Studie widerspiegelte. Bei Patienten, die nach 2014 behandelt wurden, war Warfarin jedoch mit einem deutlich höheren Sterberisiko verbunden als Aspirin. Kombinierte man alle Jahre, dominierte das Bild die späteren Jahre, sodass Aspirin insgesamt deutlich sicherer erschien. Dieses Muster könnte den Eindruck erwecken, dass nach Bekanntwerden der Studienergebnisse und neuen Leitlinien die praktische Anwendung von Warfarin verändert wurde und seine scheinbare Performance schlechter wurde.

Wie eine einzige Einschlussregel das Bild verzerrte

Ein genauerer Blick erzählte eine andere Geschichte. Um der Originalstudie treu zu bleiben, versuchte das Team, viele der gleichen Einschlussregeln anzuwenden, darunter eine Punktzahl namens Modified Rankin Score, die beschreibt, wie stark eine Person nach einem Schlaganfall behindert ist. In realen Aufzeichnungen wird dieser Wert oft spät oder gar nicht dokumentiert. Das Erfordernis, ihn vor der Zählung einer Person als „in“ der Studie zu haben, bedeutete, dass viele frühe Todesfälle nie erfasst wurden, wodurch die Überlebenskurven über Jahre künstlich abgeflacht erschienen. Als die Forschenden diese einzelne Regel entfernten, verschwand das seltsame Plateau und das Jahr 2014 erschien nicht mehr als besonders. Über viele verschiedene Cut-off-Jahre hinweg zeigte sich dasselbe Muster: Die Wahl der Einschlussregeln — nicht das Kalenderdatum — trieb die meisten Unterschiede in den Medikamenteneffekten.

Figure 2. Wie enge Eintrittsfilter bei Patienten frühzeitige Todesfälle unbemerkt verzögern oder ausschließen und so die scheinbare Sicherheit zweier Herzmedikamente verändern.

Lehren für die Nutzung großer Gesundheitsdaten

Die Studie macht deutlich, dass das Erstellen studienähnlicher Untersuchungen aus Gesundheitsakten mehr ist als nur das Kopieren von Daten und Medikamentennamen. Jedes Ein- und Ausschlusskriterium muss in Daten übersetzt werden, die unvollständig, verzögert oder nur für bestimmte Patienten erfasst sein können. Eine auf dem Papier harmlos wirkende Regel kann in der Praxis genau die Menschen herausfiltern, die frühzeitig schwere Ereignisse erleiden, und so den Vergleich der Behandlungen verzerren. Die Autorinnen und Autoren plädieren dafür, sorgfältig zu prüfen, wie jedes Kriterium beeinflusst, wer in die Studie gelangt und wann Ereignisse eintreten, um versteckte Selektionsverzerrungen zu vermeiden.

Was das für Patientinnen, Patienten und Ärztinnen und Ärzte bedeutet

Für Menschen mit Herzinsuffizienz und ihre Behandlerinnen und Behandler revidiert diese Arbeit nicht die Botschaft der ursprünglichen WARCEF-Studie oder aktueller Leitlinien. Sie liefert vielmehr eine Mahnung, wie wir „Real-World“-Studien interpretieren, die versuchen, klinische Studien nachzuahmen. Unterschiede in den Ergebnissen über die Zeit können widerspiegeln, wie wir Patienten auswählen und überwachen — nicht plötzliche Veränderungen in der Wirkungsweise eines Medikaments. Durchdachtes Design und transparente Berichterstattung über die Wahl der Einschlusskriterien sind entscheidend, wenn große Gesundheitsdaten Studien wirklich zur Informierung der täglichen Versorgung beitragen sollen.

Zitation: Li, X., Rajaganapathy, S., Hu, X. et al. From “negative” trial to positive clinical impact: mitigating eligibility criteria–induced temporal selection bias in emulated clinical trials. npj Health Syst. 3, 36 (2026). https://doi.org/10.1038/s44401-026-00082-3

Schlüsselwörter: Studienemulation, Einschlusskriterien, Herzinsuffizienz, Warfarin versus Aspirin, elektronische Gesundheitsakten