Clear Sky Science · ru

Неустойчивость и пределы производительности свёрточных нейронных сетей на несеквенционных медицинских табличных данных: эмпирическое исследование

· Назад к списку

Почему это важно для повседневной медицины

Больницы всё чаще полагаются на искусственный интеллект, чтобы предсказывать наличие рака, сердечных заболеваний или тяжёлых инфекций, используя табличные медицинские записи, а не изображения. Это исследование задаёт на первый взгляд простй, но имеющий большие практические последствия вопрос: можно ли доверять популярным сегодня нейросетям, ориентированным на обработку изображений, когда их применяют к таким не‑изображённым, колонко‑ориентированным медицинским данным, или они ведут себя непредсказуемо и могут ввести в заблуждение врачей и пациентов?

Figure 1
Figure 1.

Два типа биологически вдохновлённых «калькуляторов»

Авторы сравнили две семейства нейронных сетей, которые в очень упрощённом виде имитируют обработку информации в мозге. Свёрточные нейронные сети (CNN) — рабочие лошадки современной обработки изображений. Они просматривают картинку маленькими участками, ищут локальные паттерны, такие как края или текстуры, а затем собирают их в более сложные формы. Многослойные перцептроны (MLP) используют более простой подход: они рассматривают каждую входную характеристику — например, возраст, артериальное давление или лабораторный показатель — как независимое число и учатся взвешенным комбинациям всех этих признаков одновременно, не предполагая какого‑то порядка или соседства между ними.

Проверка медицинских таблиц

Чтобы понять, как такие модели ведут себя на реальных медицинских данных, команда использовала три хорошо известных набора данных, которые больше похожи на электронные таблицы, чем на изображения. Один содержал лабораторные и клинические признаки пациентов с COVID‑19 и использовался для прогнозирования выживаемости. Другой описывал микроскопические измерения опухолей молочной железы и применялся для различения злокачественных и доброкачественных случаев. Третий включал классические факторы риска сердечно‑сосудистых заболеваний из кардиологической базы. Важно, что в этих наборах переменные располагаются рядом друг с другом, но не существует естественного «слева‑на‑право» порядка, который несёт смысл, как это происходит с пикселями на изображении.

Перемешивание столбцов и встряска моделей

Суть исследования заключалась в масштабном стресс‑тесте. Авторы многократно перемешивали порядок входных столбцов и одновременно случайным образом меняли ключевые части архитектуры CNN: число небольших «считывателей участков» (ядер), ширину этих участков и число нейронов в последнем слое принятия решений. Для каждой комбинации порядка столбцов и архитектуры — всего 1000 перестановок — они обучали CNN и, параллельно, сопоставимый MLP. Вместо того чтобы фокусироваться на одной «лучшей» точности, они исследовали, как распределяются показатели производительности по всем этим запускам, используя площадь под ROC‑кривой (AUROC) как сводную метрику того, насколько хорошо каждая модель отделяет больных от здоровых.

Figure 2
Figure 2.

Что они обнаружили в «чёрном ящике»

Результаты дали трезвую картину в отношении CNN на не‑изображённых медицинских таблицах. В некоторых тщательно подобранных настройках CNN могли сравниться или даже немного превзойти MLP по пику производительности — особенно на данных по раку груди, где было много сильных, явно разделяющих признаков. Но по всем перестановкам и архитектурам CNN демонстрировали гораздо более широкие колебания в результатах, с тревожной склонностью к редким, но очень плохим запускам. Их успех или провал сильно зависели от произвольных решений: порядка столбцов, размера окна сканирования и числа фильтров и нейронов в последнем слое. Более крупные окна сканирования, которые смешивают много соседних признаков, последовательно ухудшали как среднюю производительность, так и устойчивость на этих несеквенционных входах.

Почему более простые модели часто вели себя лучше

MLP, напротив, были гораздо менее чувствительны к порядку столбцов. Поскольку они не опираются на локальные соседства, перемешивание признаков в принципе не меняло того, что модель может выучить. При увеличении числа нейронов в скрытом слое MLP его производительность устойчиво улучшалась и часто превосходила CNN, при этом использовалось меньшее общее число параметров. Наборы данных с явно информативными признаками давали высокие и стабильные результаты для обеих моделей, но CNN всё равно несли более высокий риск редкого «провала». На сложных наборах с более слабыми сигналами производительность CNN сильно варьировала в зависимости от архитектурных решений, тогда как MLP оставались относительно стабильными.

Вывод для клинического ИИ

Для медицинских приложений, основанных на табличных записях, а не на изображениях, исследование делает вывод, что CNN могут быть хрупкими инструментами. Их кажущаяся сила на некоторых бенчмарках может отражать удачное расположение столбцов и специфические проектные решения, а не по-настоящему устойчивое обучение медицинским закономерностям. MLP и другие методы, которые не предполагают осмысленной пространственной раскладки признаков, в целом обеспечивали более надёжное поведение в тысячах испытаний. Для врачей, госпитальных дата‑саентистов и регуляторов урок ясен: при создании ИИ‑систем на табличных медицинских данных стоит отдавать приоритет устойчивости и прозрачности, а не погоне за самым высоким единичным показателем производительности от сетей, ориентированных на изображения и изначально для таких входов не предназначенных.

Цитирование: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Ключевые слова: медицинские табличные данные, свёрточные нейронные сети, многослойный перцептрон, клинические предиктивные модели, устойчивость моделей