Clear Sky Science · pl

Niestałość i granice wydajności sieci konwolucyjnych na niesekwencyjnych medycznych danych tabelarycznych: badanie empiryczne

· Powrót do spisu

Dlaczego to ma znaczenie dla codziennej praktyki medycznej

Szpitale coraz częściej polegają na sztucznej inteligencji, aby pomagała przewidywać, kto ma raka, choroby serca lub poważne infekcje, wykorzystując arkuszopodobne zapisy medyczne zamiast obrazów. Badanie stawia pozornie proste pytanie o duże praktyczne konsekwencje: czy popularne dziś sieci neuronowe zaprojektowane do obrazów są rzeczywiście godne zaufania, gdy karmimy je takimi nieobrazowymi, kolumnowymi danymi medycznymi, czy też zachowują się nieprzewidywalnie i mogą wprowadzać w błąd lekarzy i pacjentów?

Figure 1
Figure 1.

Dwa typy kalkulatorów inspirowanych mózgiem

Badacze porównali dwie rodziny sieci neuronowych, które w bardzo uproszczony sposób naśladują sposób przetwarzania informacji przez mózg. Sieci konwolucyjne (CNN) są głównym narzędziem współczesnego rozpoznawania obrazów. Skanują obrazy małymi fragmentami, szukając lokalnych wzorców, takich jak krawędzie czy tekstury, a następnie łączą je w coraz bardziej złożone kształty. Wielowarstwowe perceptrony (MLP) stosują prostsze podejście: traktują każdą cechę wejściową — na przykład wiek, ciśnienie krwi czy wynik badania laboratoryjnego — jako niezależną liczbę i uczą się ważonych kombinacji wszystkich cech jednocześnie, nie zakładając żadnego szczególnego porządku ani sąsiedztwa.

Testowanie tabel medycznych

Aby sprawdzić zachowanie tych modeli na rzeczywistych danych zdrowotnych, zespół wykorzystał trzy dobrze znane zestawy danych medycznych, które przypominają bardziej arkusze kalkulacyjne niż obrazy. Jeden zawierał cechy laboratoryjne i kliniczne pacjentów z COVID‑19 i służył do przewidywania przeżycia. Inny opisywał mikroskopowe pomiary guzów piersi, wykorzystywane do rozróżnienia zmian złośliwych i łagodnych. Trzeci obejmował klasyczne czynniki ryzyka chorób serca z bazy kardiologicznej. Ważne jest to, że te zbiory danych wymieniają zmienne obok siebie, ale nie istnieje naturalny porządek „od lewej do prawej”, który niósłby znaczenie, jak ma to miejsce w pikselach obrazu.

Przemieszanie kolumn i wstrząs modelami

Istotą badania był masywny test wytrzymałościowy. Autorzy wielokrotnie tasowali kolejność kolumn wejściowych i jednocześnie losowo zmieniali kluczowe elementy konstrukcji CNN, takie jak liczba małych „czytników fragmentów” (jąder), szerokość tych fragmentów oraz liczba neuronów w końcowej warstwie decyzyjnej. Dla każdej kombinacji tasowania i architektury — łącznie 1000 permutacji — trenowali CNN oraz równolegle porównywalny MLP. Zamiast skupiać się na jednym „najlepszym” wyniku dokładności, badali rozkład wyników w tych uruchomieniach, używając pola pod krzywą ROC (AUROC) jako podsumowania, jak dobrze każdy model rozdziela chorych od zdrowych pacjentów.

Figure 2
Figure 2.

Co znaleźli w czarnej skrzynce

Wyniki ukazały trzeźwiący obraz działania CNN na tabelarycznych danych medycznych. W niektórych starannie dobranych ustawieniach CNN mogły dorównywać, a nawet nieznacznie przewyższać MLP pod względem szczytowej wydajności — szczególnie na danych o raku piersi, które miały wiele silnych, wyraźnie rozdzielających cech. Jednak w całym zbiorze tasowań i architektur CNN wykazywały znacznie większe wahania wydajności, z niepokojącą tendencją do okazjonalnie bardzo słabych przebiegów. Ich sukces lub porażka zależały w dużym stopniu od arbitralnych wyborów: jak uporządkowano kolumny, jak duże były okna skanowania oraz ile filtrów i neuronów w warstwie końcowej zastosowano. Większe okna skanowania, które mieszają wiele sąsiadujących cech, konsekwentnie szkodziły zarówno średniej wydajności, jak i stabilności na tych niesekwencyjnych wejściach.

Dlaczego prostsze modele często zachowywały się lepiej

MLP były z kolei znacznie mniej wrażliwe na kolejność kolumn. Ponieważ nie polegają na lokalnych sąsiedztwach, tasowanie cech nie zmieniało tego, czego model mógł się w zasadzie nauczyć. Gdy badacze zwiększali liczbę neuronów w ukrytej warstwie MLP, jego wydajność systematycznie rosła i często przewyższała CNN, mimo że używano mniejszej liczby parametrów ogółem. Zbiory danych z wyraźnie informacyjnymi cechami zwykle dawały wysokie i stabilne wyniki dla obu modeli, ale CNN wciąż niosły większe ryzyko okazjonalnego załamania. W trudniejszych zbiorach danych z dominującymi słabszymi sygnałami wydajność CNN gwałtownie zmieniała się wraz z decyzjami architektonicznymi, podczas gdy MLP pozostawały relatywnie stabilne.

Główne przesłanie dla klinicznej AI

Dla zastosowań medycznych opierających się na arkuszopodobnych zapisach zamiast obrazów, badanie to konkluduje, że CNN mogą być kruchymi narzędziami. Ich pozorna siła w niektórych benchmarkach może odzwierciedlać szczęśliwe uporządkowanie kolumn i konkretne decyzje projektowe, a nie rzeczywiście trwałe uczenie się wzorców medycznych. MLP i inne metody, które nie zakładają sensownego układu przestrzennego, generalnie oferowały bardziej niezawodne zachowanie w tysiącach prób. Dla lekarzy, analityków danych szpitalnych i regulatorów lekcja jest jasna: przy budowaniu systemów AI dla danych tabelarycznych ze zdrowia bezpieczniej jest priorytetyzować stabilność i przejrzystość zamiast gonić za najwyższym pojedynczym wynikiem wydajności sieci stylizowanych na obrazy, które nigdy nie były zaprojektowane do takich wejść.

Cytowanie: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Słowa kluczowe: medyczne dane tabelaryczne, sieci konwolucyjne, wielowarstwowy perceptron, modele predykcyjne w medycynie, stabilność modelu