Clear Sky Science · de

MM-GradCAM: eine verbesserte multimodale GradCAM-Methode mit 1D- und 2D-ECG-Daten zur Erkennung von Herzrhythmusstörungen

2026-02-09 · Zurück zur Übersicht

Warum diese Herzstudie für Sie wichtig ist

Unregelmäßige Herzschläge, sogenannte Arrhythmien, können zu Ohnmacht, Schlaganfällen oder plötzlichem Tod führen, bleiben aber oft ohne Warnzeichen, bis es zu spät ist. Ärztinnen und Ärzte stützen sich auf Elektrokardiogramme (EKGs) — die vertrauten gezackten Linien, die die Herzaktivität aufzeichnen —, um Probleme zu erkennen. In den letzten Jahren wurden Computerprogramme immer besser darin, diese Kurven zu lesen und erreichen mitunter das Niveau von Fachärzten. Sie arbeiten jedoch meist wie eine Blackbox: Sie liefern eine Antwort, ohne offenzulegen, wie sie zu dieser gekommen sind. Diese Studie stellt eine neue Methode vor, die diese leistungsfähigen Werkzeuge transparenter macht und Ärzten zeigt, welche Teile des EKGs die Entscheidung des Computers geleitet haben.

Im Inneren der Blackbox nachsehen

Viele moderne medizinische KI-Systeme nutzen Deep Learning, eine Technik, die Muster in Daten automatisch entdeckt, statt sich auf von Menschen erstellte Regeln zu stützen. Zwar steigert das häufig die Genauigkeit, zugleich verbirgt es aber den Entscheidungsprozess — ein ernstes Problem, wenn es um Leben geht. Um Vertrauen aufzubauen, haben Forschende Methoden der „erklärbaren KI“ entwickelt, die die Bereiche eines Bildes oder Signals hervorheben, die die Modellentscheidung am stärksten beeinflusst haben. Eines der am häufigsten verwendeten Werkzeuge dafür heißt Grad-CAM; es erzeugt Heatmaps — farbige Überlagerungen, die zeigen, wohin das Modell seinen Fokus richtete. Bisher waren solche Erklärungen jedoch meist auf eine Eingabeform beschränkt, etwa das rohe EKG-Signal oder ein Bild, aber nicht beide zusammen.

Zwei Blickwinkel auf denselben Herzschlag

In dieser Arbeit konzentrierten sich die Autorinnen und Autoren auf einen gebräuchlichen EKG-Kanal, genannt Ableitung II, entnommen aus einer großen öffentlichen Datenbank mit mehr als 10.000 Patientinnen und Patienten. Jede 10-Sekunden-Aufzeichnung wurde auf zwei Arten verarbeitet. Erstens blieb sie in ihrer ursprünglichen eindimensionalen Form, als einfache Kurve der Spannung über die Zeit. Zweitens wurde sie in ein Graustufenbild umgewandelt — im Grunde ein geplotteter EKG-Streifen, als Bild gespeichert. Für jede Form baute das Team ein entsprechendes Deep-Learning-Modell, basierend auf einem 17-schichtigen Convolutional Neural Network, einer verbreiteten Architektur zur Mustererkennung. Ein Netzwerk lernte aus dem 1D-Signal, das andere aus dem 2D-Bild, und beide wurden darauf trainiert, Herzrhythmen in vier Gruppen einzuteilen: normaler Rhythmus, langsamer Rhythmus, eine Gruppe schneller Rhythmen und rhythmusstörungen im Zusammenhang mit Vorhofflimmern.

Zwei Erklärungen zu einer verschmelzen

Nach dem Training wendeten die Forschenden Grad-CAM getrennt auf das signalbasierte und das bildbasierte Modell an. Für das 1D-Modell erzeugten sie farbige Segmente über der EKG-Kurve, an denen das Netzwerk am stärksten fokussiert war. Für das Bildmodell entstanden Heatmaps, die Hotspots im EKG-Bild hervorhoben. Die neue Methode, MM-GradCAM (multimodales Grad-CAM), richtete diese beiden Perspektiven zeitlich und räumlich aufeinander aus und verschmolz sie zu einer einzigen Erklärung. Diese vereinheitlichte Karte zeigt auf einem kombinierten EKG-Streifen sowohl die zeitlichen Hinweise als auch die bildbasierten Muster, die die KI-Entscheidung antrieben. Ein Kardiologe überprüfte zahlreiche Beispiele und verglich die hervorgehobenen Bereiche mit bekannten Merkmalen verschiedener Rhythmen, etwa fehlende P‑Wellen beim Vorhofflimmern oder sehr regelmäßige schnelle Schläge bei bestimmten schnellen Rhythmen.

Wie gut das System den Herzschlag liest

Bei bislang ungesehenen Testpatienten klassifizierte das bildbasierte Modell die Rhythmen korrekt in etwa 97 % der Fälle, während das signalbasierte Modell rund 93 % Genauigkeit erreichte. Die Leistung variierte je nach Rhythmustyp, wobei das Bildmodell im Allgemeinen besser abschnitt, insbesondere bei komplexeren oder subtileren Mustern. Gleichzeitig zeigten die fusionierten MM-GradCAM-Karten, dass jede Ansicht etwas anderes beisteuert. Bei einigen Patienten mit Vorhofflimmern übersah die signalbasierte Erklärung Schlüsselregionen, während die bildbasierte Karte korrekt Bereiche fokussierte, in denen normale Wellenformen fehlten. In anderen Fällen, etwa bei bestimmten schnellen Rhythmen, lieferte die signalbasierte Karte ein klareres und klinisch sinnvolleres Bild. Indem beide Ansichten zusammen präsentiert werden, machte MM-GradCAM Stärken und Schwächen sichtbar, die bei nur einer Eingabeform verborgen geblieben wären.

Was das für die zukünftige Herzmedizin bedeutet

Die Hauptaussage der Studie ist nicht nur, dass ein Computer abnorme Herzrhythmen präzise erkennen kann — viele Systeme schaffen das bereits —, sondern dass sich seine Entscheidungsfindung nun für menschliche Expertinnen und Experten besser nachvollziehbar machen lässt. Durch die Kombination signal- und bildbasierter Erklärungen in einer kohärenten Darstellung bietet MM-GradCAM Kardiologinnen und Kardiologen ein Mittel, zu prüfen, ob die KI auf medizinisch sinnvolle Teile des EKGs „blickt“. Das kann Vertrauen stärken, helfen, Fehler zu erkennen, und sogar als Lehrmittel für Auszubildende dienen, die lernen, komplexe Rhythmen zu lesen. Obwohl die Methode noch an vielfältigeren Patientengruppen und in realen klinischen Abläufen getestet werden muss, weist sie auf eine Zukunft hin, in der leistungsfähige KI-Tools nicht nur Antworten liefern, sondern auch klar aufzeigen, wie sie zu diesen gekommen sind.

Zitation: Murat Duranay, F., Murat, E., Yıldırım, Ö. et al. MM-GradCAM: an improved multimodal GradCAM method with 1D and 2D ECG data for detection of cardiac arrhythmia. Sci Rep 16, 7919 (2026). https://doi.org/10.1038/s41598-026-38654-w

Schlüsselwörter: Herzrhythmusstörung, Elektrokardiogramm, Deep Learning, erklärbare KI, Grad-CAM