Clear Sky Science · de
Ein reproduzierbares Benchmarking von QRS-Detektionsalgorithmen über vielfältige EKG-Datensätze und Rauschbedingungen
Warum es wichtig ist, jeden Herzschlag zu verfolgen
Jeder Herzschlag hinterlässt eine winzige elektrische Signatur im Elektrokardiogramm, dem EKG. Die genaue Bestimmung der Spitze jedes Schlages ist entscheidend, um die Herzfrequenz und feine Unterschiede zwischen den Schlägen zu berechnen, die auf Stress, Schlafqualität und das Risiko für Herzkrankheiten schließen lassen. Wenn EKG‑Sensoren von Krankenhausmonitoren auf Armbänder und Brustgurte wandern, müssen Forschende wissen, welche Computerverfahren diese Spitzen auch dann noch zuverlässig finden, wenn das Leben Bewegung, Rauschen und unordentliche Daten hinzufügt.

Die Herausforderung: saubere Spitzen in unordentlichen Signalen finden
Die Studie konzentriert sich auf die Detektion eines bestimmten Punkts im EKG‑Signal, der R‑Spitze, den scharfen Ausschlag, der jeden Herzschlag markiert. Diese Spitzen dienen als Referenzpunkte für die Herzfrequenz und für die Herzfrequenzvariabilität, ein Maß, das in Kardiologie, Neurologie und Stressforschung verwendet wird. Unter idealen Bedingungen sind die Spitzen leicht zu erkennen, doch in realen Aufzeichnungen wird das Signal durch Körperbewegung, lockere Elektroden, elektrische Störungen und natürliche Unterschiede zwischen Menschen verzerrt, besonders bei Personen mit unregelmäßigem Rhythmus. Schon ein einzelnes übersehenes oder falsch erkanntes Peak kann spätere Analysen verfälschen, weshalb die Frage nicht nur ist, wie gut eine Methode bei sauberen Daten funktioniert, sondern wie zuverlässig sie über viele Personen und Aufnahmesituationen hinweg arbeitet.
Ein gemeinsames Testbett für Herzschlag‑Detektoren aufbauen
Um dem zu begegnen, stellten die Autorinnen und Autoren ein reproduzierbares Benchmark aus 17 Methoden zur R‑Spitzen‑Detektion zusammen. Diese reichen von klassischen Verfahren der Signalverarbeitung, die Filter und mathematische Regeln anwenden, bis hin zu Machine‑Learning‑ und Deep‑Learning‑Modellen, die Muster aus Daten erlernen. Alle Methoden wurden auf dieselbe Weise an fünf offenen EKG‑Datenbanken der PhysioNet‑Plattform bewertet, die Langzeitüberwachung, Ruheaufnahmen, Bewegung beim Gehen und Laufen, unregelmäßige Herzrhythmen und Aufzeichnungen mit künstlich hinzugefügtem Rauschen abdecken. Für lernbasierte Methoden trainierten die Forschenden jedes Modell nur auf einem separaten öffentlichen Datensatz und fixierten dann dessen Einstellungen, sodass die Tests widerspiegeln, wie gut die Modelle auf neue Patientinnen und Bedingungen generalisieren, die sie nie gesehen haben.
Wer gewinnt: handabgestimmte Regeln oder gelernte Modelle
Über mehr als eine Million Herzschläge traten einige klare Trends zutage. Klassische Signalverarbeitungsansätze — besonders ein Verfahren namens Blocks of Interest — lieferten die konsistentesten Ergebnisse, wenn alle Datenbanken zusammengeführt wurden. Ein rekurrentes neuronales Netzwerk, das Sequenzen von Schlägen betrachtet, zeigte sich in den lautesten Aufnahmen überlegen und hielt seine Genauigkeit höher als die meisten Konkurrenten, wenn das Signal stark kontaminiert war. Deep‑Learning‑Modelle konnten in einigen Datensätzen, insbesondere bei starkem Rauschen, extrem gut abschneiden, doch ihre Leistung sank tendenziell stärker, wenn die neuen Daten sich vom Trainingsmaterial unterschieden. Ältere Referenzmethoden, die einen sehr regelmäßigen Herzschlag voraussetzen, hatten Schwierigkeiten mit Aufnahmen von Patientinnen und Patienten mit Arrhythmien, bei denen der Rhythmus per Definition unregelmäßig ist.

Was Rauschen und Bewegung mit den Zahlen anstellen
Durch den Vergleich der Bedingungen zeigten die Autorinnen und Autoren, wie verschiedene Störquellen die Leistung beeinflussen. Alle Algorithmen arbeiteten sehr gut bei entspannten Ruheaufnahmen und bei Bewegungsdaten von sitzenden Probanden. Sobald die Teilnehmenden zu gehen oder zu laufen begannen, sank die Detektionsqualität leicht, aber konsistent für fast jede Methode — ein Hinweis auf die Auswirkungen von Bewegung auf tragbare Sensoren. Im Extremfall der speziellen Rauschbelastungs‑Datenbank fielen die Gesamtwerte für alle Ansätze, doch das rekurrente neuronale Netzwerk blieb relativ stabil, was darauf hindeutet, dass die Nutzung von Kontext über mehrere Schläge hinweg ihm hilft, das Signal im Rauschen zu erkennen. Diese Muster deuten darauf hin, dass kein einzelner Detektor überall der Beste ist und dass die Kombination mehrerer Methoden oder ein Wechsel der Strategie basierend auf geschätzten Rauschpegeln vorteilhaft sein könnte.
Was das für Ärzte, Gerätehersteller und Forschende bedeutet
Für Klinikerinnen und Kliniker sowie Entwicklerinnen und Entwickler tragbarer Geräte ist die zentrale Botschaft pragmatisch: Wenn Sie einen Algorithmus brauchen, der sofort und für viele Arten von EKGs gut funktioniert, sind erprobte Verfahren der Signalverarbeitung weiterhin eine sichere Wahl, während Deep‑Learning‑Methoden sorgfältig ausgewählte und vielfältige Trainingsdaten benötigen können, um Überraschungen in neuen Umgebungen zu vermeiden. Die Autorinnen und Autoren stellen zudem ihren vollständigen Code, Datenlinks und Bewertungsskripte als offenes Framework bereit, sodass künftige Teams neue Algorithmen einstecken und unter denselben Bedingungen testen können. Statt einen einzelnen Sieger zu küren, kartiert die Arbeit die Stärken und Schwächen führender Methoden und ermutigt die Gemeinschaft, robustere, teilbare Werkzeuge zum Auslesen der Herzrhythmen zu entwickeln.
Zitation: Wolf, S.M., Rahlmeier, T., Lustfeld, S. et al. A reproducible benchmark of QRS detection algorithms across diverse ECG datasets and noise conditions. Sci Rep 16, 15748 (2026). https://doi.org/10.1038/s41598-026-53724-9
Schlüsselwörter: EKG, R‑Spitzen‑Detektion, Herzfrequenzvariabilität, Signalverarbeitung, Tiefes Lernen