Clear Sky Science · de

Ein hybrides LSTM‑GRU‑Framework zur Klassifizierung von Lungenkrebs unter Verwendung des GWO‑WOA‑Algorithmus zur Hyperparameterabstimmung und BPSO zur Merkmalsauswahl

· Zurück zur Übersicht

Warum das für die Gesundheit im Alltag wichtig ist

Lungenkrebs früh zu erkennen kann Leben retten, doch viele Menschen erhalten erst dann aufwendige Bildgebung, wenn es schon zu spät ist. Diese Studie untersucht, ob einfache fragebogenbasierte Untersuchungen – zu Alter, Rauchen, Symptomen und alltäglichen Gewohnheiten – mit moderner künstlicher Intelligenz kombiniert werden können, um Personen mit hohem Risiko lange vor dem Auftreten schwerer Erkrankungen zu identifizieren. Indem kostengünstige Fragebögen und intelligente Computermodelle optimal genutzt werden, weist die Arbeit auf schnellere, zugänglichere Screening‑Instrumente hin, die künftig Ärztinnen und Ärzte sowie öffentliche Gesundheitsprogramme weltweit unterstützen könnten.

Figure 1
Figure 1.

Einfache Fragen in nützliche Signale verwandeln

Die Forschenden arbeiteten mit zwei öffentlichen Datensätzen von der Plattform Kaggle, die zusammen mehr als 3.300 Personen abdecken. Statt medizinischer Bilder enthält jeder Datensatz 15 Einträge, wie man sie auf einem Klinikformular finden würde: Alter, Geschlecht, Raucherstatus, gelbliche Finger, Husten, Atemnot, Brustschmerzen und ähnliche Risikofaktoren und Symptome sowie ein Label, das angibt, ob Lungenkrebs vorlag. Da Umfragedaten aus der Praxis unordentlich sind, bereinigte das Team zunächst die Informationen, indem fehlende Einträge korrigiert, Duplikate entfernt und die Kodierung der Antworten in beiden Datensätzen vereinheitlicht wurde. Außerdem skalierten sie die Werte, sodass alle Merkmale auf ähnlichen Skalen lagen, und wandten eine Ausgleichsmethode an, um eine starke Schieflage zugunsten der Krebsfälle im kleineren Datensatz zu korrigieren, damit das Modell nicht dazu neigt, nur die Mehrheitsklasse vorherzusagen.

Den Computer die aussagekräftigsten Fragen wählen lassen

Nicht jede Frage auf einem Formular ist gleich hilfreich zur Erkennung von Krankheit, und zu viele Fragen können ein Modell sogar verwirren. Um sich auf das Wesentliche zu konzentrieren, setzten die Autorinnen und Autoren eine schwarminspirierte Suchstrategie namens Binary Particle Swarm Optimization ein. Vereinfacht gesagt werden viele Kandidatensets von Fragen parallel getestet und bewegen sich im Suchraum, wobei sie die besten Performer kopieren und verbessern. Im Laufe der Zeit gelangte dieser Prozess zu kompakten Sets von etwa sieben Schlüsselfragen und hob wiederholt Merkmale wie Rauchen, gelbliche Finger, Husten, Brustschmerzen, Keuchen, Atemnot und chronische Erkrankungen hervor. Diese fokussierten Sets verbesserten die Genauigkeit um mehrere Prozentpunkte gegenüber der Verwendung aller 15 Fragen und machten das endgültige Modell zugleich leichter interpretierbar und schneller ausführbar.

Figure 2
Figure 2.

Ein intelligenterer Motor zum Erkennen von Mustern in Antworten

Um Fragebogenantworten in eine Ja‑/Nein‑Krebsprognose umzuwandeln, entwickelte das Team ein hybrides Modell, das zwei verwandte Deep‑Learning‑Einheiten für Sequenzen verbindet: Long Short‑Term Memory (LSTM) und Gated Recurrent Unit (GRU). Obwohl Umfrageantworten keine Zeitreihen wie Sprache oder Video sind, bilden Gruppen von Symptomen und Gewohnheiten dennoch Muster, die als kurze Sequenzen behandelt werden können. Das Modell leitet zunächst die ausgewählten Fragen durch LSTM‑Schichten, die Informationen selektiv speichern und verwerfen können, und anschließend durch GRU‑Schichten, die diese Muster mit weniger internen Schritten und geringerem Rechenaufwand verfeinern. Um Trial‑and‑Error‑Design zu vermeiden, stimmten die Autorinnen und Autoren wichtige Einstellungen – wie Lernrate, Anzahl der verborgenen Einheiten, Batch‑Größe und Dropout – mit einer zweiten Schicht naturinspirierter Suche ab, die die breite Erkundung der „Grauwölfe“ mit den feinen Anpassungen der „Wale“ kombiniert. Dieser gemeinsame Optimierer sucht nach Hyperparameter‑Kombinationen, die bei der Kreuzvalidierung konstant hohe Genauigkeit liefern.

Wie gut das System abgeschnitten hat

Nach dem Training wurde das hybride LSTM–GRU‑Modell gegen mehrere starke Baselines getestet, darunter eigenständige LSTM‑ und GRU‑Netze, ein Convolutional Neural Network, traditionelle Support‑Vector‑Machines sowie baumbasierte Verfahren wie Random Forests und Gradient Boosting. Im kleineren Datensatz mit 309 Personen klassifizierte das vorgeschlagene System im gehaltenen Testsplit jeden einzelnen Fall korrekt und erreichte 100 % Genauigkeit, Präzision, Recall und F1‑Score. Im größeren Datensatz mit 3.000 Personen blieb es nahezu perfekt, mit rund 99,3 % Genauigkeit und ähnlich hohen Werten bei den anderen Kennzahlen und übertraf damit alle konkurrierenden Deep‑Learning‑ und klassischen Modelle. Die Autorinnen und Autoren zeigten außerdem, dass ihre zweistufige Strategie – zuerst Auswahl der Fragen mit der Schwarm‑Suche, dann Abstimmung des hybriden Netzes mit dem Wolf‑und‑Wal‑Optimierer – stabilere Ergebnisse über wiederholte Kreuzvalidierungsdurchläufe lieferte als einfachere Konfigurationen.

Was das für zukünftige Lungenscreenings bedeutet

Konkret zeigt diese Arbeit, dass ein sorgfältig entworfenes KI‑System gewöhnliche Fragebogenantworten lesen und in Benchmark‑Datensätzen Menschen mit und ohne Lungenkrebs sehr akkurat unterscheiden kann. Es ersetzt keine Bildgebung, Ärzte oder klinische Studien, und die Autorinnen und Autoren betonen, dass ihre Daten begrenzt sind und noch nicht für den direkten Einsatz in Krankenhäusern geeignet sind. Dennoch demonstriert der Ansatz, dass die Kombination aus intelligenter Frageauswahl und fein abgestimmten Deep‑Learning‑Modellen kostengünstige Formulare in leistungsfähige Frühwarninstrumente verwandeln kann. Mit weiteren Tests an größeren, klinisch kuratierten Populationen und besseren Erklärmethoden, die zeigen, warum das Modell eine Person als Hochrisiko einstuft, könnten ähnliche Systeme eines Tages helfen zu entscheiden, wer für weitergehende Bildgebung überwiesen werden sollte, und so frühere Diagnosen unterstützen, während das Screening erschwinglich und nicht invasiv bleibt.

Zitation: Amrir, M.M.S., Ayid, Y.M., Elshewey, A.M. et al. A hybrid LSTM-GRU framework for lung cancer classification using GWO-WOA algorithm for hyperparameter tuning and BPSO for feature selection. Sci Rep 16, 8600 (2026). https://doi.org/10.1038/s41598-026-39020-6

Schlüsselwörter: Lungenkrebsscreening, Fragebogendaten, Tiefes Lernen, Merkmalsauswahl, medizinische KI