Clear Sky Science · de

Entwicklung eines erklärbaren Algorithmus auf Basis von XGBoost und genetischem Algorithmus zur Vorhersage des Hospitalisierungsbedarfs von COVID-19-Patienten

· Zurück zur Übersicht

Warum das für die tägliche Versorgung wichtig ist

Während der COVID-19-Pandemie mussten Ärzte häufig sehr schnell entscheiden, wer ein Krankenhausbett benötigte und wer sicher zu Hause genesen konnte. Diese Arbeit beschreibt ein computerbasiertes Werkzeug, das bei dieser Entscheidung unterstützen soll. Es versucht, zwei wichtige Eigenschaften zu verbinden: hohe Genauigkeit beim Erkennen von Risikopatienten und klare, einfache Erklärungen, denen Ärztinnen und Ärzte vertrauen und die sie praktisch nutzen können.

Patientendaten in frühzeitige Warnhinweise verwandeln

Die Forschenden analysierten medizinische Aufzeichnungen von 1.278 erwachsenen COVID-19-Patienten, die zwischen April 2020 und März 2021 in einem Krankenhaus im Iran behandelt wurden. Für jede Person sammelten sie 27 Informationen, darunter Alter, Sauerstoffsättigung, Blutwerte wie C-reaktives Protein und D‑Dimer, Symptome wie Fieber oder Atemnot sowie Vorerkrankungen wie Diabetes oder Bluthochdruck. Beibehalten wurden nur Datensätze mit belastbaren Labor‑ oder Bildgebungsbefunden für COVID-19 und weitgehend vollständigen Angaben. Das Team bereinigte den Datensatz sorgfältig, füllte einige fehlende Werte mit statistischen Methoden auf, entfernte offensichtliche Fehler und teilte die Daten dann in getrennte Gruppen zum Trainieren und Testen der Modelle.

Figure 1
Figure 1.

Aufbau einer leistungsfähigen Vorhersage‑Engine

Im Kern des Systems steht eine Methode des maschinellen Lernens namens XGBoost, die sehr gut darin ist, Muster in komplexen Daten zu finden. Das Werkzeug lernt aus früheren Fällen, welche Kombinationen von Messwerten typischerweise auf einen Krankenhausbedarf hindeuten. Bei Tests über 100 Wiederholungen trennte es Hochrisiko‑ von Niedrigrisikopatienten mit einer Fläche unter der Kurve (AUC) von 0,85 – ein Hinweis auf eine gute Fähigkeit, Patienten nach Wahrscheinlichkeit einer Aufnahme zu ranken. Es identifizierte etwa drei von vier Patienten, die tatsächlich hospitalisiert werden mussten, und beruhigte korrekt etwa neun von zehn Personen, die keine Aufnahme benötigten. Verglichen mit traditionelleren Ansätzen – wie logistischer Regression, Random Forests, einem einfachen neuronalen Netz und einem weiteren baumbasierten Verfahren namens LightGBM – lieferte XGBoost die beste Mischung aus Genauigkeit und Verlässlichkeit.

Vom Blackbox‑Modell zu klaren Regeln für Ärztinnen und Ärzte

Rein statistische Modelle können wie eine Blackbox wirken: Sie liefern einen Risikowert, aber keinen für Menschen verständlichen Grund. Um diese Box zu öffnen, ergänzte das Team eine zweite Schicht, die das Verhalten des Modells in kurze, leicht lesbare Regeln der Form „WENN diese Bedingungen vorliegen, DANN ist Hospitalisierung wahrscheinlich“ übersetzt. Zunächst trainierten sie eine Reihe kleiner Entscheidungsbäume, die jeweils nur wenige Bedingungen berücksichtigen, und betrachteten jeden Pfad durch diese Bäume als potenzielle Regel. Ein genetischer Algorithmus – eine von der Evolution inspirierte Optimierungsmethode – diente dazu, diese Regeln zu kürzen und zu verfeinern, wobei nur solche erhalten blieben, die sowohl genau waren als auch auf ausreichend viele Patienten anwendbar waren, um nützlich zu sein. Schließlich bewerteten zehn Ärztinnen und Ärzte aus den relevanten Fachgebieten die Regeln und behielten nur solche, die medizinisch sinnvoll und klar formuliert waren. Dieser Prozess ergab 40 finale Regeln, davon 20, die auf Hospitalisierung hindeuten, und 20, die auf sichere ambulante Versorgung verweisen.

Figure 2
Figure 2.

Was das Modell über Risiken gelernt hat

Beim Untersuchen der wichtigsten Prädiktoren hob sich eine kleine Gruppe von Messwerten hervor. Niedrige Sauerstoffsättigung, erhöhte C‑reaktive Proteinwerte, höheres Alter, steigendes D‑Dimer, hohes Ferritin und ein niedriger Lymphozytenanteil hatten den größten Einfluss auf die Vorhersagen – im Einklang mit der Erfahrung aus der Klinik, dass Sauerstoffwerte sowie Zeichen von Entzündung oder Gerinnung entscheidend sind. Erkrankungen wie Diabetes, ausgeprägte Lungenbeteiligung in CT‑Aufnahmen und Atemnot spielten ebenfalls eine Rolle, waren aber etwas weniger zentral. Häufige Symptome wie Husten oder Muskelschmerzen trugen nur wenig zur Entscheidung bei, wer ein Krankenhausbett benötigte. Das Team prüfte außerdem die Leistungsfähigkeit über Männer und Frauen, jüngere und ältere Patienten sowie solche mit und ohne größere chronische Erkrankungen. Die Unterschiede waren gering und statistisch nicht bedeutsam, was darauf hindeutet, dass das Werkzeug in diesem Datensatz relativ fair zwischen diesen Gruppen agierte.

Wie das in künftigen Ausbrüchen helfen könnte

In der Praxis würde das System zweistufig arbeiten. Zuerst berechnet das XGBoost‑Modell ein Hospitalisierungsrisiko aus den Basisangaben, Vitalparametern und Routineblutwerten eines Patienten. Danach sucht das Werkzeug nach einer der von Experten geprüften Regeln, die auf diesen Patienten passt – etwa einer bestimmten Kombination aus niedriger Sauerstoffsättigung, hohen Entzündungsmarkern und Alter. Wird eine übereinstimmende Regel gefunden, die mit der Vorhersage des Modells übereinstimmt, präsentiert das System diese Regel dem Kliniker als Begründung für die vorgeschlagene Entscheidung. Die Autoren argumentieren, dass dieses zweiteilige Design – genaue Vorhersage plus einfache, geprüfte Regeln – Künstliche Intelligenz in der klinischen Praxis eher akzeptabel machen könnte. Da der Regelgenerierungsprozess modular ist, könnten ähnliche Systeme schnell mit lokal gesammelten Daten für neue Infektionserkrankungen nachtrainiert werden, wodurch Krankenhäuser Patienten triagieren und knappe Ressourcen in künftigen Gesundheitskrisen verwalten könnten.

Zitation: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6

Schlüsselwörter: COVID-19-Triage, Vorhersage der Hospitalisierung, erklärbare KI, klinische Entscheidungsunterstützung, Maschinelles Lernen im Gesundheitswesen