Clear Sky Science · de

Ein hybrider Deep-Learning-Ansatz, der CNN und Transformer für die Klassifikation von Lungenkrebs in CT-Scans integriert

2026-03-17 · Zurück zur Übersicht

Warum diese Forschung für Patientinnen, Patienten und Familien wichtig ist

Lungenkrebs gehört zu den tödlichsten Krebsarten weltweit, vor allem weil er häufig zu spät entdeckt wird. Diese Studie untersucht, wie fortgeschrittene Computer-Vision Ärzten helfen kann, Lungen-CT-Scans genauer und konsistenter zu beurteilen, sodass verdächtige Stellen in der Lunge früher und mit weniger Fehlern markiert werden können. Das kann schnellere und besser informierte klinische Entscheidungen unterstützen.

Mit digitalen Augen in den Brustkorb sehen

Ärztinnen und Ärzte verlassen sich häufig auf CT-Scans, um nach winzigen Wucherungen in der Lunge zu suchen, die auf Krebs hinweisen können. Diese Herde, Noduli genannt, können sehr klein und unauffällig sein, besonders in frühen Krankheitsstadien. Normales Lungengewebe, harmlose Knötchen und gefährliche Tumoren können selbst für erfahrene Spezialistinnen und Spezialisten überraschend ähnlich aussehen. Kleine Veränderungen in Bildqualität, Hintergrundgewebe oder Rauschen können den Unterschied zusätzlich verschleiern. Deshalb werden manche Krebserkrankungen übersehen, während andere Befunde Fehlalarme auslösen, die zu unnötigen Folgeuntersuchungen führen.

Figure 1. Wie KI Lungen-CT-Scans liest, um Bilder in gesund, harmlos oder krebsverdächtig einzuteilen.

Computern beibringen, Muster in Lungenaufnahmen zu erkennen

Die Forschenden entwickelten ein Deep-Learning-System namens C-Swin, das Lungen-CT-Bilder in drei Kategorien einteilt: normal, gutartig (nicht krebsartig) und bösartig (krebsartig). Deep-Learning-Systeme lernen direkt aus vielen Beispielbildern, anstatt sich auf handgefertigte Regeln zu stützen. C-Swin verbindet zwei leistungsfähige Konzepte. Ein Typ neuronaler Netze, bekannt als Convolutional Neural Network (CNN), konzentriert sich auf feine Details wie Kanten, Texturen und kleine Formen, die die Struktur eines Noduls verraten. Gleichzeitig betrachtet ein Transformer-Modul, inspiriert von Werkzeugen aus der maschinellen Übersetzung, das Bild weiter gefasst und bewertet, wie Regionen zueinander über die gesamte Lunge hinweg in Beziehung stehen.

Auf das Wesentliche im Bild fokussieren

Um CT-Scans optimal zu nutzen, führte das Team einen speziellen Aufmerksamkeitsmechanismus ein, der dem Modell hilft, sich auf relevante Bereiche zu konzentrieren und Hintergrundstörungen zu ignorieren. Das CT-Bild wird in kleine Patches oder Fenster unterteilt. Innerhalb dieser Fenster lernt das Modell, welche Bereiche die nützlichsten Informationen liefern, um zu beurteilen, ob Gewebe gesund ist oder nicht. Durch Verschieben und Kombinieren der Fenster in unterschiedliche Richtungen bewahrt das Netzwerk die Beziehungen zwischen benachbarten Regionen und erfasst sowohl Nahaufnahmen als auch längerreichweitige Strukturen in der Lunge. Eine zusätzliche Gate-Komponente hilft dem System, subtile, aber wichtige Muster zu betonen und weniger hilfreiche Signale zu unterdrücken, wodurch die Unterscheidung zwischen harmlosen und gefährlichen Noduli verfeinert wird.

Figure 2. Wie ein zweigleisiges KI-Modell sowohl in Lungen-Details als auch in die gesamte Aufnahme hineinzoomt, um wahrscheinliche Krebsherde hervorzuheben.

Das System auf die Probe stellen

Die Autorinnen und Autoren trainierten und evaluierten C-Swin mit einem öffentlich verfügbaren CT-Datensatz, der aus irakischen Krankenhäusern stammt und Bilder gesunder Lungen, gutartiger Noduli und bösartiger Fälle enthält. Da medizinische Datensätze oft klein sind, vergrößerten sie die Trainingsmenge durch Datenaugmentation, etwa durch Spiegeln und Rotieren von Bildern, um eine größere Vielfalt an Aufnahmen zu simulieren. Nach sorgfältiger Vorverarbeitung und Training klassifizierte das Modell Bilder mit einer Genauigkeit von rund 96 Prozent korrekt und erreichte ähnlich hohe Werte bei Präzision, Recall und F1-Score — Kennzahlen, die verpasste Krebserkrankungen gegen Fehlalarme abwägen. Bei wiederholten Tests mit verschiedenen Datenaufteilungen blieben die Ergebnisse stabil, und statistische Prüfungen zeigten, dass C-Swin deutlich besser abschnitt als mehrere existierende Deep-Learning-Ansätze.

Was das für die künftige Versorgung bedeuten könnte

Obwohl diese Studie nicht das Urteil einer Radiologin oder eines Radiologen ersetzt, zeigt sie, dass eine sorgfältig gestaltete Kombination aus lokaler und globaler Bildanalyse Computern helfen kann, genau jene Lungenregionen ins Visier zu nehmen, die Expertinnen und Experten für besonders wichtig halten. Grad-CAM-Visualisierungen, die Bildbereiche hervorheben, die die Entscheidungen des Modells beeinflussen, deuten darauf hin, dass C-Swin dazu neigt, sich auf Läsionsregionen statt auf irrelevanten Hintergrund zu konzentrieren. Die Autorinnen und Autoren weisen darauf hin, dass die Arbeit auf einem einzelnen, relativ kleinen Datensatz beruht; breitere Tests in verschiedenen Kliniken und mit unterschiedlichen Scannern sind daher noch nötig. Wenn das System auf größeren und vielfältigeren Datensammlungen validiert wird, könnten solche Lösungen zu nützlichen Assistenten im Befundungsraum werden, die helfen, Fälle zu priorisieren, Übersehungen zu reduzieren und möglicherweise eine frühere Erkennung von Lungenkrebs zu unterstützen.

Zitation: Yousafzai, S.N., Nasir, I.M., Mansour, S. et al. A hybrid deep learning approach integrating CNN and transformer for lung cancer classification using CT scans. Sci Rep 16, 15420 (2026). https://doi.org/10.1038/s41598-026-41161-7

Schlüsselwörter: Lungenkrebs, CT-Bildgebung, Deep Learning, medizinische KI, Bildklassifikation