Clear Sky Science · de

MIMIC-III-Ext-PPG, ein PPG-basiertes Benchmark-Datenset für kardiovaskuläre und respiratorische Signalanalyse

· Zurück zur Übersicht

Warum Handgelenksensoren eine Frage von Leben und Tod erzählen können

Viele von uns tragen Smartwatches, die unseren Puls leise rund um die Uhr aufzeichnen. Auf Intensivstationen wird ein sehr ähnliches, lichtbasiertes Signal – die Photoplethysmographie (PPG) – kontinuierlich von kritisch kranken Patienten aufgezeichnet. Dieses Paper stellt MIMIC-III-Ext-PPG vor, die bislang größte und detaillierteste öffentliche Sammlung solcher Pulssignale, konzipiert, um Forschenden das Entwickeln und Testen neuer Algorithmen zum Erkennen gefährlicher Herzrhythmen, zur berührungslosen Blutdruckschätzung und zur Atemverfolgung zu ermöglichen.

Figure 1
Figure 1.

Eine riesige Bibliothek von Pulsschnappschüssen

Die Autorinnen und Autoren stellten mehr als 6,3 Millionen kurze, 30 Sekunden lange PPG-Schnipsel aus 6.189 Intensivpatienten zusammen, deren Daten Teil der bekannten MIMIC-III-Krankenhausdatenbank sind. Jeder Schnipsel dokumentiert, wie sich das Licht, das durch einen Fingertritt fällt, mit jedem Herzschlag verändert – eine einfache Messung, die heute von Bettmonitoren bis zu Verbrauchersoftware in Wearables verfügbar ist. Für viele dieser Schnipsel enthält das Datenset zudem synchronisierte Elektro­kardiogramm-, Blutdruck- und Atemsignale, wodurch jeder Pulsschnappschuss zu einem reichen, mehrsignaligen Fenster auf Herz und Lunge wird.

Von Stationsnotizen zu detaillierten Herzrhythmus-Labels

Was dieses Datenset besonders macht, ist nicht nur seine Größe, sondern die Kennzeichnungen. Im ursprünglichen Krankenhaussystem zeichneten Pflegende und Ärztinnen und Ärzte regelmäßig den Herzrhythmus der Patientinnen und Patienten in elektronischen Charts auf. Das Team stimmte diese Chart-Einträge sorgfältig mit den genauen Zeiträumen der Wellenformaufzeichnungen ab und vereinheitlichte unterschiedliche Aufzeichnungssysteme zu einem konsistenten Satz von 26 Herzrhythmus-Typen. Diese reichen vom normalen Rhythmus und einfachem Beschleunigen oder Verlangsamen über verschiedene Vorhof- und Kammerarrhythmien bis hin zu schrittmacherabhängigen Rhythmen und vollständigen Leitungsblockaden. Dieses Detaillierungsniveau geht weit über frühere, pulsbasierte Datensätze hinaus, die üblicherweise nur ein oder zwei Rhythmuskategorien anboten.

Mehr messen als nur den Herzschlag

Um eine Bandbreite von Studien zu unterstützen, extrahierten die Autorinnen und Autoren eine Vielzahl grundlegender Vitalparameter direkt aus den Signalen. Aus den Blutdruckwellen berechneten sie typische obere und untere Druckwerte; aus dem Atemsignal schätzten sie die Atemfrequenz; und aus dem Elektro­kardiogramm gewannen sie die Herzfrequenz. Diese Werte wurden in kurzen Zeitfenstern berechnet, unter Verwendung etablierter Open-Source-Algorithmen und bewährter Regeln, um fehlerhafte Messungen zu vermeiden. Indem diese Messungen jedem 30-Sekunden-Segment beigepackt werden, erlaubt das Datenset Forschenden, Algorithmen zu testen, die Blutdruck, Herzfrequenz oder Atemfrequenz allein aus dem Pulssignal vorhersagen, und zu untersuchen, wie sich diese Messgrößen gemeinsam verändern.

Sicherstellen, dass die Signale vertrauenswürdig sind

Daten aus der realen Krankenhausumgebung können unordentlich sein: Sensoren lösen sich, Patienten bewegen sich und Kabel trennen sich. Um irreführende Analysen zu vermeiden, entwickelte das Team eine Signalqualitäts-Pipeline, die jedes Segment überprüft. Für jeden Signaltyp kontrollierten sie auf Totlinien, fehlende Werte, unplausible Herz- oder Atemraten und inkonsistente Schlagformen. Segmente, die alle Kontrollen bestanden, wurden als hohe Qualität markiert; solche mit kleineren Problemen, aber noch brauchbaren Informationen, als niedrige Qualität; und Segmenten mit schwerwiegenden Problemen wurden vollständig ausgeschlossen. Die Autorinnen und Autoren validierten außerdem ein wichtiges Label, das Vorhofflimmern, durch den Vergleich mit von Expertinnen und Experten überprüften EKG-Annotierungen einer anderen Studie und fanden hohe Übereinstimmung und eine nahezu perfekte Spezifität.

Figure 2
Figure 2.

Eine Grundlage für künftige Gesundheitsalgorithmen

Durch die Kombination großer Datenmenge, detaillierter Herzrhythmus-Labels, mehrerer synchronisierter Signale und expliziter Qualitätswerte bietet MIMIC-III-Ext-PPG ein leistungsfähiges Testbett für datengetriebene Medizin. Forschende können es nutzen, um neue Methoden zum Erkennen unregelmäßiger Herzschläge mit handgelenksähnlichen Sensoren zu benchmarken, den Blutdruck ohne Manschette zu schätzen oder Multi-Task-Modelle zu entwickeln, die mehrere Vitalparameter gleichzeitig lernen. Obwohl es nicht dazu gedacht ist, eigenständig Echtzeit-Entscheidungen in der Medizin zu treffen, legt dieses offene Datenset die Grundlage für zuverlässigere und besser generalisierbare Algorithmen, die eines Tages alltägliche Pulssensoren in Frühwarnsysteme für schwere Herz- und Lungenprobleme verwandeln könnten.

Zitation: Moulaeifard, M., Kutscher, M., Aston, P.J. et al. MIMIC-III-Ext-PPG, a PPG-based Benchmark Dataset for Cardiovascular and Respiratory Signal Analysis. Sci Data 13, 668 (2026). https://doi.org/10.1038/s41597-026-07335-8

Schlüsselwörter: Photoplethysmographie, Arrhythmieerkennung, Intensivstationsdaten, Blutdruckschätzung, tragbare Gesundheits­sensoren