Clear Sky Science · de

Multimodales Multi‑Instance‑Learning zur Vorhersage der Leistungsfähigkeit bei kardiopulmonaler Belastungsprüfung

· Zurück zur Übersicht

Warum das für Menschen mit schwachem Herzen wichtig ist

Für Menschen mit Herzinsuffizienz lautet eine der drängendsten Fragen: „Wie viel Zeit habe ich noch, und was können Ärztinnen und Ärzte noch für mich tun?“ Der beste medizinische Test, um diese Frage heute zu beantworten, ist eine anspruchsvolle Laufband‑ oder Fahrradprüfung, die misst, wie viel Sauerstoff der Körper bei intensiver Belastung verbrauchen kann. Dieser Test ist jedoch schwer zugänglich und steht in vielen Krankenhäusern nicht zur Verfügung. Die Studie zeigt, wie Ärztinnen und Ärzte stattdessen häufig verfügbare Herzultraschall‑Aufnahmen und bereits vorhandene Informationen aus der Krankenakte zusammen mit moderner künstlicher Intelligenz nutzen könnten, um denselben wichtigen Wert abzuschätzen und Patienten zu erkennen, die möglicherweise lebensrettende fortgeschrittene Therapien benötigen.

Die Herausforderung, Gefährdungen früh zu erkennen

Herzinsuffizienz betrifft Millionen von Amerikanern und raubt oft mehr als ein Jahrzehnt Lebenszeit. Im fortgeschrittensten Stadium kann die Überlebensrate schlechter sein als bei vielen Krebserkrankungen, doch nur ein kleiner Teil der Patienten erhält rechtzeitig Behandlungen wie Herztransplantation oder mechanische Pumpen. Ein wichtiges Instrument zur Entscheidung, wer an diese Therapien überwiesen werden sollte, ist die kardiopulmonale Belastungsprüfung, die das „peak VO₂“ misst — die maximale Sauerstoffaufnahme des Körpers bei Belastung. Ein niedriges peak VO₂ ist ein starkes Warnzeichen, aber der Test erfordert spezielle Geräte, geschultes Personal und Platz, sodass viele Zentren — insbesondere kleinere oder ländliche Krankenhäuser — ihn nicht anbieten können. Im Gegensatz dazu sind Standard‑Herzultraschalluntersuchungen (transthorakale Echokardiographie, TTE) und elektronische Gesundheitsakten (EHR) weit verbreitet, haben sich allein aber nicht gut darin bewährt, diejenigen mit dem höchsten Risiko zuverlässig vorherzusagen.

Computern beibringen, Informationen aus verschiedenen Tests zu verknüpfen

Die Forscher entwickelten ein neues System der künstlichen Intelligenz, das aus zwei Hauptinformationsquellen lernt: bewegten Ultraschallbildern des Herzens und detaillierten Daten aus der EHR, wie Alter, Gewicht, Medikamente und standardisierte Herzmesswerte. Jede Ultraschalluntersuchung enthält viele Clips und spezialisierte Blickwinkel, daher behandelt das Modell nicht jedes Bild isoliert, sondern betrachtet alle gemeinsam — ähnlich wie ein Arzt. Es verwendet eine „Multi‑Instance“-Strategie: Zuerst wird jedes Bild oder jeder Clip in eine kompakte Darstellung überführt, die dann mittels eines Attention‑Mechanismus kombiniert wird, sodass das Modell sich auf die informativsten Teile konzentrieren kann. Parallel dazu wandelt ein spezialisiertes neuronales Netzwerk, das auf vielen Arten tabellarischer medizinischer Daten trainiert wurde, die EHR‑Informationen in eine eigene Zusammenfassung um. In einem finalen Fusionsschritt verschmelzen die Ultraschall‑ und EHR‑Zusammenfassungen zu einem einzigen Patientenbild, aus dem das System peak VO₂ und die Frage vorhersagt, ob die Person unter einer kritischen Sicherheitsgrenze liegt.

Figure 1
Figure 1.

Wie gut das System funktioniert

Das Team trainierte und testete seinen Ansatz mit Daten aus vier großen Krankenhäusern des New York–Presbyterian‑Netzwerks, wobei 1.000 Patienten für die Entwicklung und 127 Patienten aus separaten Standorten für die externe Validierung verwendet wurden. Im Vergleich zu einem früheren, einfacheren KI‑Modell, das Ultraschall- und EHR‑Daten eher unabhängig betrachtete, war das neue Framework deutlich genauer. Es erklärte etwa 60 % der Variation im peak VO₂ in der Haupttestgruppe gegenüber etwa 53 % zuvor, und sein typischer Fehler verringerte sich um etwa ein halbes metabolisches Äquivalent (MET), eine klinisch bedeutsame Verbesserung. Wenn das Ziel schlicht war, Hochrisikopatienten — also Personen mit besonders eingeschränkter Belastungsfähigkeit — zu identifizieren, erzielte das System eine Fläche unter der Kurve (AUC) von 0,85 in der Entwicklungsgruppe und 0,87 in den externen Krankenhäusern und übertraf damit alle Modelle, die nur Ultraschall- oder nur EHR‑Daten verwendeten. Praktisch bedeutete das: Bei einem festgelegten, klinisch vernünftigen Kompromiss zwischen verpassten Fällen und Fehlalarmen wurden mehr tatsächlich Hochrisikopatienten korrekt erkannt.

Ein Blick in die Blackbox

Um zu überprüfen, ob das Modell auf sinnvolle Merkmale achtet, erstellten die Autorinnen und Autoren visuelle Karten über den Ultraschallbildern, die zeigten, welche Regionen die Vorhersagen am stärksten beeinflussten. Die Karten hoben tendenziell Herz‑Kammern, deren Bewegung und Blutflusskurven hervor — Merkmale, auf die sich Kardiologen ohnehin stützen — und deuteten darauf hin, dass das System bedeutsame Muster und nicht nur Rauschen lernt. In den EHR‑Daten erwiesen sich Messgrößen wie Alter, Body‑Mass‑Index und die Pumpfunktion des linken Ventrikels als besonders wichtig, was wiederum den klinischen Erwartungen entspricht. Die Forschenden untersuchten außerdem die Leistungsfähigkeit des Modells in verschiedenen Untergruppen. Die Vorhersage des genauen peak VO₂ war bei Männern und Frauen sowie bei weißen und nicht‑weißen Patientengruppen ähnlich, allerdings traten bei älteren Erwachsenen und bei der Hochrisikoklassifizierung über verschiedene Rassen hinweg einige Unterschiede auf, was die Notwendigkeit vielfältigerer Daten und fairness‑orientierter Verbesserungen unterstreicht.

Figure 2
Figure 2.

Von der Forschung zur Versorgung am Krankenbett

Da das System Informationen verwendet, die bereits in der Routineversorgung erhoben werden — Standard‑Echokardiogramme und vorhandene EHR‑Daten — könnte es prinzipiell direkt in Krankenhaus‑Software integriert werden. Nachdem eine Untersuchung ausgewertet wurde, könnte die KI unaufdringlich das peak VO₂ schätzen und Patienten hervorheben, deren vorhergesene Belastungsfähigkeit gefährlich niedrig ist, sodass Ärztinnen und Ärzte formelle Belastungstests anordnen oder die Patientinnen und Patienten an Spezialisten für fortgeschrittene Herzinsuffizienz überweisen. Die Ergebnisse der Studie, einschließlich der guten Leistung in Krankenhäusern, die nicht am Training beteiligt waren, deuten darauf hin, dass ein solches Werkzeug dazu beitragen könnte, mehr gefährdete Patienten zu erkennen, die andernfalls möglicherweise übersehen würden. Obwohl prospektive Studien und breitere Tests noch erforderlich sind, weist diese Arbeit auf eine Zukunft hin, in der leistungsfähige, aber knappe Tests durch KI‑Systeme ergänzt werden, die die in den meisten Krankenhäusern bereits vorhandenen Daten klüger nutzen.

Zitation: Huang, Z., Pan, W., Alishetti, S. et al. Multimodal multi-instance learning for cardiopulmonary exercise testing performance prediction. npj Digit. Med. 9, 304 (2026). https://doi.org/10.1038/s41746-026-02493-w

Schlüsselwörter: Herzinsuffizienz, kardiopulmonale Belastungsprüfung, Echokardiographie, künstliche Intelligenz, Risikovorhersage