Clear Sky Science · de

Instabilität und Leistungsgrenzen von Faltungsneuronalen Netzen bei nicht-sequenziellen medizinischen Tabellendaten: eine empirische Untersuchung

2026-03-03 · Zurück zur Übersicht

Warum das für die tägliche Medizin wichtig ist

Kliniken verlassen sich zunehmend auf Künstliche Intelligenz, um etwa Krebs, Herzerkrankungen oder schwere Infektionen vorherzusagen – und zwar anhand tabellarischer, spreadsheet‑ähnlicher Patientenakten statt Bildern. Diese Studie stellt eine auf den ersten Blick einfache, aber praktisch folgenreiche Frage: Sind die heute populären, für Bilder entwickelten neuronalen Netze tatsächlich vertrauenswürdig, wenn man ihnen solche nicht‑bildhaften, spaltenbasierten medizinischen Daten füttert, oder verhalten sie sich unvorhersehbar und könnten so Ärzte und Patienten in die Irre führen?

Zwei Arten gehirninspirierter Rechner

Die Forschenden verglichen zwei Familien neuronaler Netze, die in sehr grober Weise nachahmen, wie das Gehirn Informationen verarbeitet. Faltungsneuronale Netze (CNNs) sind die Arbeitspferde moderner Bilderkennung: Sie scannen Bilder in kleinen Feldern und suchen lokale Muster wie Kanten oder Texturen, um dann zu komplexeren Formen aufzubauen. Mehrschichtige Perzeptrons (MLPs) verfolgen einen einfacheren Ansatz: Sie behandeln jedes Eingangsmerkmal – etwa Alter, Blutdruck oder einen Laborwert – als unabhängige Zahl und lernen gewichtete Kombinationen aller Merkmale gleichzeitig, ohne eine bestimmte Reihenfolge oder Nachbarschaft anzunehmen.

Medizinische Tabellen auf die Probe gestellt

Um zu prüfen, wie sich diese Modelle bei realen Gesundheitsdaten verhalten, nutzte das Team drei bekannte medizinische Datensätze, die eher wie Tabellen als wie Bilder aussehen. Einer enthielt Labor‑ und klinische Merkmale von COVID‑19‑Patienten zur Vorhersage des Überlebens. Ein anderer beschrieb mikroskopische Messungen von Brusttumoren, um gutartige und bösartige Fälle zu unterscheiden. Der dritte erfasste klassische Risikofaktoren für Herzkrankheiten aus einer Kardiologie‑Datenbank. Wichtig ist: Diese Datensätze listen Variablen nebeneinander auf, haben jedoch keine natürliche „links‑nach‑rechts“-Reihenfolge mit inhaltlicher Bedeutung – anders als Pixel in einem Bild.

Spalten durchmischen und die Modelle erschüttern

Kern der Studie war ein umfangreicher Stresstest. Die Autorinnen und Autoren vertauschten wiederholt die Reihenfolge der Eingabespalten und veränderten gleichzeitig zufällig zentrale Teile des CNN‑Designs, etwa wie viele kleine „Patch‑Leser“ (Kerne) verwendet wurden, wie breit diese Fenster waren und wie viele Neuronen in der finalen Entscheidungsschicht saßen. Für jede Kombination aus Spaltenanordnung und Architektur – insgesamt 1.000 Permutationen – trainierten sie das CNN und parallel ein vergleichbares MLP. Statt sich auf eine einzige „beste“ Genauigkeit zu konzentrieren, betrachteten sie, wie sich die Leistungswerte über all diese Läufe verteilten und fassten die Trennschärfe mit der Fläche unter der ROC‑Kurve (AUROC) zusammen.

Was sie im Black‑Box‑Inneren fanden

Die Ergebnisse zeichneten ein ernüchterndes Bild für CNNs bei nicht‑bildhaften medizinischen Tabellen. In einigen wohlgewählten Einstellungen konnten CNNs die MLPs in Spitzenwerten erreichen oder leicht übertreffen – insbesondere bei den Brustkrebsdaten, die viele starke, klar trennende Merkmale enthielten. Über alle Durchmischungen und Architekturen jedoch zeigten CNNs deutlich größere Leistungsschwankungen mit einer besorgniserregenden Neigung zu gelegentlich sehr schlechten Läufen. Ihr Gelingen oder Scheitern hing stark von arbiträren Entscheidungen ab: der Spaltenordnung, der Größe des Scanfensters sowie der Zahl der Filter und der Knoten in der Endschicht. Größere Scanfenster, die viele benachbarte Merkmale vermischen, schadeten konsistent sowohl dem mittleren Leistungsniveau als auch der Stabilität bei diesen nicht‑sequentiellen Eingaben.

Warum einfachere Modelle oft besser abschnitten

Dagegen waren MLPs deutlich weniger empfindlich gegenüber der Spaltenreihenfolge. Da sie nicht auf lokale Nachbarschaften angewiesen sind, änderte das Vertauschen der Merkmale nicht grundsätzlich, was das Modell lernen konnte. Wenn die Forschenden die Anzahl der Neuronen in der verborgenen Schicht des MLP erhöhten, verbesserte sich dessen Leistung stetig und übertraf häufig die der CNNs, obwohl insgesamt weniger Parameter verwendet wurden. Datensätze mit klar informativen Merkmalen führten bei beiden Modellfamilien zu hohen und stabilen Werten, doch CNNs blieben mit einem höheren Risiko gelegentlicher Kollapsläufe behaftet. Bei schwierigeren Datensätzen, die von schwächeren Signalen dominiert waren, variierte die CNN‑Leistung stark mit Architekturentscheidungen, während MLPs vergleichsweise stabil blieben.

Kernaussage für klinische KI

Für medizinische Anwendungen, die auf spreadsheet‑ähnlichen Aufzeichnungen statt auf Bildern beruhen, kommt die Studie zu dem Schluss, dass CNNs fragile Werkzeuge sein können. Ihre scheinbare Stärke in manchen Benchmarks kann eher glücklichen Spaltenordnungen und speziellen Designentscheidungen geschuldet sein als einem wirklich robusten Erfassen medizinischer Muster. MLPs und andere Methoden, die keine sinnvolle räumliche Anordnung voraussetzen, zeigten in der Regel verlässlichere Verhaltensweisen über tausende Versuche hinweg. Für Ärztinnen und Ärzte, Krankenhaus‑Datenwissenschaftler und Aufsichtsbehörden lautet die Lehre klar: Beim Aufbau von KI‑Systemen für tabellarische Gesundheitsdaten ist es sicherer, Stabilität und Transparenz zu priorisieren, statt der höchsten einzelnen Leistungszahl von bild‑orientierten Netzen nachzujagen, die nie für solche Eingaben konzipiert wurden.

Zitation: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Schlüsselwörter: medizinische Tabellendaten, Faltungsneuronale Netze, Mehrschichtiger Perzeptron, klinische Vorhersagemodelle, Modellstabilität