Clear Sky Science · de

Bedeutung ausgeglichener Datensätze mit Merkmalsauswahl und Ensemble-Methoden bei der Klassifikation von Herzkrankheiten mithilfe unterschiedlicher Machine-Learning-Techniken: eine vergleichende Analyse

· Zurück zur Übersicht

Warum das für alltägliche Herzen wichtig ist

Herzkrankheiten sind nach wie vor die weltweit häufigste Todesursache, doch viele Menschen, die Gesundheitsumfragen ausfüllen oder Kliniken aufsuchen, sehen ihre Angaben nie als frühzeitige Warnung genutzt. Diese Studie stellt eine einfache, aber kraftvolle Frage: Wenn wir große Gesundheitsdatensätze bereinigen und ausgleichen, die aussagekräftigsten Risikofaktoren sorgfältig auswählen und dann den passenden Computermodelltyp wählen, können wir dann deutlich besser erkennen, wer mit großer Wahrscheinlichkeit Herzprobleme entwickeln wird?

Figure 1
Figure 1.

Unordentliche Gesundheitsdaten in etwas Nützliches verwandeln

Die Forscher arbeiteten mit einem großen öffentlichen Datensatz des US-amerikanischen Behavioral Risk Factor Surveillance System, der selbstberichtete Informationen von Tausenden Erwachsener zu ihrer Gesundheit und ihren Gewohnheiten enthält. Jede Person wird durch 17 alltägliche Merkmale beschrieben, wie Alter, Rauch- und Alkoholkonsum, Schlafdauer, körperliche Aktivität, Diabetes, Nierenerkrankung und die allgemeine selbstbewertete Gesundheit, sowie die Angabe, ob eine Herzerkrankung vorliegt. Wie bei den meisten realen medizinischen Aufzeichnungen waren die Daten unordentlich: Einige Werte fehlten, einige Personen waren eindeutige Ausreißer, und deutlich weniger Personen gaben an, eine Herzerkrankung zu haben. Das Team bereinigte zuerst die Daten, ergänzte fehlende Werte, entfernte extreme Ausreißer und teilte dann die Datensätze in getrennte Gruppen zum Trainieren und Testen der Computermodelle auf.

Das Problem seltener Fälle beheben

Ein großes Hindernis war die Unausgewogenheit: Personen ohne Herzerkrankung überwogen diejenigen mit Herzerkrankung deutlich. In solchen Situationen kann ein Modell allein durch häufige Vorhersage „keine Krankheit“ genau erscheinen, während es viele echte Fälle verpasst. Um dem entgegenzuwirken, verwendeten die Autoren eine Technik namens Oversampling, die realistische synthetische Beispiele der selteneren „Herzerkrankung“-Fälle erzeugt, sodass die Trainingsdaten annähernd gleiche Zahlen positiver und negativer Ergebnisse enthalten. Dieser Ausgleichsschritt verbesserte die Fähigkeit mehrerer Modelle, Menschen mit Herzerkrankung zu finden, machte die Vorhersagen jedoch für sich genommen nicht zuverlässig scharf oder diskriminierend.

Figure 2
Figure 2.

Die aussagekräftigsten Risikofaktoren auswählen

Die Studie fragte anschließend, welche Informationen über eine Person für die Vorhersage am wichtigsten sind. Die Autoren testeten drei Familien statistischer Werkzeuge, die jedes Merkmal danach bewerten, wie stark es mit Herzerkrankungen zusammenhängt. Sie bewerteten diese Methoden einzeln sowie in acht verschiedenen Vereinigungen und Schnittmengen und stellten im Grunde die Fragen: „Was, wenn wir alles behalten, was irgendeine Methode markiert?“ versus „Was, wenn wir nur die Merkmale behalten, denen alle Methoden zustimmen?“ Altersgruppen, selbstbewertete allgemeine Gesundheit, Gehschwierigkeiten, Schlaganfallgeschichte, Diabetes, Nierenerkrankungen, Body-Mass-Index und bestimmte Lebensstilindikatoren tauchten wiederholt als die informativsten Signale über die Methoden hinweg auf.

Maschinelle Lernmodelle im direkten Vergleich

Mit ausgeglichenen Daten und sorgfältig ausgewählten Merkmalen verglich das Team sieben gängige Machine-Learning-Ansätze: logistische Regression, Entscheidungsbäume, Random Forests, Naive Bayes, Support Vector Machines, künstliche neuronale Netze und k-nächste Nachbarn. Sie bewerteten diese mittels gebräuchlicher Maße: Gesamtgenauigkeit, wie oft positive Vorhersagen korrekt waren (Precision), wie viele echte Herzerkrankungsfälle erfasst wurden (Recall) und wie gut Modelle Kranke von Nicht-Kranken über alle Schwellenwerte trennen (ROC–AUC-Score). Random Forests und Entscheidungsbäume lagen beständig vorn, sobald eine Merkmalsauswahl angewendet wurde, besonders wenn ANOVA-basierte Methoden Teil des Auswahlprozesses waren. Im besten Setting erreichte ein Random Forest etwa 92 % Genauigkeit, 93 % Recall und eine AUC von 0,92 und lag damit deutlich vor den Wettbewerbern.

Wann das Kombinieren von Modellen hilft – und wann nicht

Die Autoren untersuchten außerdem „Bagging“, eine Methode, viele leicht unterschiedliche Versionen eines Modells zu erzeugen und dann deren Stimmen zu kombinieren. Dieser Ensemble-Trick wird häufig verwendet, um die Instabilität in Modellen wie Entscheidungsbäumen zu reduzieren. In dieser Studie brachte Bagging für einige hochvariante Modelle kleine Gewinne, verbesserte ihre Fähigkeit, zwischen Herzkrankheit und Gesunden zu unterscheiden, jedoch nicht dramatisch, insbesondere wenn es ohne die zuvor beschriebene sorgfältige Merkmalsauswahl verwendet wurde. Tatsächlich führte das alleinige Verlassen auf Bagging manchmal dazu, dass wichtige positive Fälle unentdeckt blieben, was in einem medizinischen Umfeld inakzeptabel wäre.

Was das für Patienten und Ärztinnen und Ärzte bedeutet

Für Laien lautet die Kernbotschaft, dass die Art und Weise, wie wir Daten vorbereiten und gestalten, wichtiger sein kann als die Raffinesse des Vorhersagemodells. Ein komplexer Algorithmus allein reicht nicht aus, wenn die zugrunde liegenden, ungleichen und verrauschten Gesundheitsdaten ungeordnet bleiben. Diese Arbeit zeigt, dass das Ausbalancieren der Daten und die sorgfältige Auswahl eines fokussierten Satzes aussagekräftiger Risikofaktoren – insbesondere jener, die durch ANOVA-basierte Methoden hervorgehoben werden – relativ einfache Modelle wie Random Forests und Entscheidungsbäume in die Lage versetzen, deutlich zuverlässigere Vorhersagen zu treffen. Zwar müssen diese Ergebnisse noch in anderen Populationen und in realen Kliniken bestätigt werden, sie weisen jedoch auf praktikable Rezepte zur Entwicklung von Frühwarnsystemen hin, die Ärztinnen und Ärzten eines Tages helfen könnten, Risikopatienten früher zu erkennen und Präventionsmaßnahmen gezielter einzusetzen.

Zitation: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Schlüsselwörter: Vorhersage von Herzkrankheiten, Maschinelles Lernen, Merkmalsauswahl, Ausgleich von Gesundheitsdaten, Random-Forest-Modelle