Clear Sky Science · de

Class-attention-Pooling und token-sparsity-basierte Vision-Transformer zur Interpretation von Thorax-Röntgenaufnahmen

2026-02-10 · Zurück zur Übersicht

Intelligentere Röntgenaufnahmen für eine globale Lungenerkrankung

Tuberkulose bleibt eine der tödlichsten Infektionskrankheiten weltweit, und Thorax-Röntgenaufnahmen sind in überfüllten Kliniken – insbesondere in Ländern mit niedrigem und mittlerem Einkommen – oft der erste und einzige verfügbare bildgebende Test. Das Lesen dieser Aufnahmen ist jedoch schwierig und zeitaufwendig, selbst für Expertinnen und Experten. Diese Studie stellt ein System der künstlichen Intelligenz vor, das nicht nur sehr genau Anzeichen von Tuberkulose auf Thorax-Röntgenbildern erkennt, sondern Ärztinnen und Ärzten auch genau zeigt, welche Bereiche der Lunge seine Entscheidung beeinflusst haben, um Vertrauen zu schaffen und schnellere, konsistentere Diagnosen zu unterstützen.

Warum das Lesen von Thoraxbildern so anspruchsvoll ist

Thorax-Röntgenaufnahmen sind günstig, schnell und weit verbreitet, was sie zu einem attraktiven Instrument für Massenscreenings macht. Das Problem ist, dass Tuberkulose sich auf subtile Weise zeigen kann, die leicht übersehen wird, vor allem wenn Bilder verrauscht, unter- oder überbelichtet oder mit älteren Geräten aufgenommen wurden. Menschliche Leserinnen und Leser können zu unterschiedlichen Schlussfolgerungen kommen, und überlastete Kliniken können Radiologinnen und Radiologen überfordern. Traditionelle Computerprogramme gingen dieses Problem an, indem sie händisch entwickelte Merkmale in den Bildern maßen und diese in Standard-Modelle des maschinellen Lernens einspeisten, doch diese frühen Systeme hatten Schwierigkeiten, wenn Aufnahmen aus neuen Krankenhäusern oder mit anderen technischen Einstellungen stammten.

Von neuronalen Netzen zu auf Aufmerksamkeit fokussierten Vision-Modellen

Tiefes Lernen, insbesondere Convolutional Neural Networks, verbesserte die Lage, indem Muster direkt aus Pixeln gelernt wurden und starke Ergebnisse auf Tuberkulose-Datensätzen erzielt wurden. Diese Netze konzentrieren sich jedoch überwiegend auf lokale Nachbarschaften im Bild und können breitere Muster, die beide Lungen betreffen, übersehen. Neuere Modelle, sogenannte Vision Transformer, betrachten ein Röntgenbild als Gitter kleiner Patches und lernen, wie jeder Patch zu jedem anderen in Beziehung steht, wodurch langfristige Strukturen erfasst werden. Obwohl leistungsfähig, können handelsübliche Transformer auf unwichtige Bereiche achten und schwer zu interpretieren sein, was die Frage aufwirft, ob ihre Entscheidungen mit klinischem Denken übereinstimmen.

Eine angepasste KI-Pipeline für Lungenaufnahmen

Die Autorinnen und Autoren entwerfen einen maßgeschneiderten Vision Transformer, um diese Schwächen für Thorax-Röntgenaufnahmen zu beheben. Zunächst wird jedes Bild sorgfältig vorverarbeitet: Es wird skaliert, normalisiert und häufig einem Kontrastverbesserungsverfahren unterzogen, das schwache Lungenläsionen hervorhebt, ohne zu stark zu schärfen. Eine leichte Faltungsstufe am Anfang des Modells extrahiert feine Details wie Kanten und Texturen, die in medizinischen Bildern wichtig sind. Der Scan wird dann in kleine Patches aufgeteilt, von denen jeweils ein Token gebildet wird, den der Transformer verarbeiten kann.

Dem Modell beibringen, wohin es schauen soll

Um dem System zu helfen, die Anatomie im Blick zu behalten, verwendet das Modell einen Positions-Encoding-Mechanismus, der Informationen darüber einspeist, wo sich jeder Patch in der Lunge befindet, anstatt alle Positionen als austauschbar zu behandeln. Es führt außerdem spezielle „Class“-Tokens ein, einen pro Krankheitskategorie, die lernen, die relevantesten Belege aus allen Patches zu sammeln. Eine Sparsitätsstrategie ermutigt das Netzwerk, sich nur auf eine Teilmenge der informativsten Tokens zu stützen und Hintergrundmuster sowie Rauschen zu verwerfen. Das Trainingsrezept umfasst Techniken wie zufälliges Entfernen von Tokens, sorgfältige Lernratenplanung und Mixed-Precision-Berechnung, die alle ausgewählt wurden, um das Lernen bei begrenzten medizinischen Daten zu stabilisieren und ein Überanpassen an Besonderheiten der Trainingsbilder zu vermeiden.

Sehen, was die KI sieht

Wesentlich ist, dass das System so gebaut ist, dass es sich erklären kann. Nachdem es eine Vorhersage von „Tuberkulose“ oder „normal“ getroffen hat, erzeugt das Modell Heatmaps mittels einer Methode, die als Grad-CAM bekannt ist. Diese farbigen Überlagerungen heben die Lungenregionen hervor, die die Entscheidung am stärksten beeinflusst haben. Die Autorinnen und Autoren gestalten ihre Erklärungs-Pipeline so, dass ausgewogene Beispiele sowohl aus erkrankten als auch aus gesunden Fällen gezeigt werden, damit Radiologinnen und Radiologen prüfen können, ob das Werkzeug auf klinisch sinnvolle Strukturen statt auf irrelevante Artefakte schaut. Auf zwei offenen Tuberkulose-Datensätzen erreichte der Ansatz Validierungsgenauigkeiten nahe 98 Prozent und eine Area Under Curve, die einer nahezu perfekten Trennung entspricht, wobei die Autorinnen und Autoren jedoch darauf hinweisen, dass ihre Bildebenen-Aufteilung die reale Leistung etwas überschätzen könnte und externe Tests weiterhin erforderlich sind.

Was das für die zukünftige Versorgung bedeutet

Kurz gesagt zeigt diese Arbeit ein KI-System, das wahrscheinliche Tuberkulosefälle auf Thorax-Röntgenaufnahmen schnell und genau markieren kann, während es zugleich eine klare visuelle „Landkarte“ seiner Entscheidungsgrundlage liefert. Ein solches Werkzeug könnte helfen, Patientinnen und Patienten in ressourcenknappen Kliniken zu triagieren, verpasste Fälle zu reduzieren und Radiologinnen und Radiologen eine konsistente Zweitmeinung zu bieten. Zugleich betonen die Autorinnen und Autoren, dass ihr Modell nur auf zwei öffentlichen Datensätzen getestet wurde, sich auf ein einzelnes Krankheitslabel konzentriert und keine vollständige klinische Validierung besitzt. Zukünftige Schritte umfassen die Erweiterung der Methode auf mehrere Lungenerkrankungen, die Anpassung an 3D-Scans wie CT, die Validierung der Erklärungen mit Radiologinnen und Radiologen sowie Tests in verschiedenen Krankenhäusern. Dennoch markiert die Studie einen vielversprechenden Schritt hin zu KI, die nicht nur genau, sondern auch transparent und vertrauenswürdig im Kampf gegen Tuberkulose ist.

Zitation: Lokunde, V., Sundar, K., Khokhar, A. et al. Class-attention pooling and token sparsity based vision transformers for chest X-ray interpretation. Sci Rep 16, 8035 (2026). https://doi.org/10.1038/s41598-026-37109-6

Schlüsselwörter: Tuberkulose, Thorax-Röntgen, Vision Transformer, erklärbare KI, medizinische Bildgebung