Clear Sky Science · zh

卷积神经网络在非序列化医学表格数据上的不稳定性和性能极限：一项实证研究

2026-03-03 · 返回目录

这对日常医疗为何重要

医院越来越依赖人工智能来帮助预测谁患有癌症、心脏病或严重感染，使用的是类似电子表格的病历而非影像。本研究提出了一个看似简单但实际影响深远的问题：当我们把这类非影像、按列组织的医学数据输入目前流行的基于图像的神经网络时，这些网络真的值得信赖吗，还是会表现出可能误导医生和患者的不可预测行为？

两类受大脑启发的计算器

研究者比较了两大类粗略模仿大脑处理信息方式的神经网络。卷积神经网络（CNN）是现代图像识别的主力，按小块扫描图片，搜索局部模式如边缘或纹理，然后逐步构建更复杂的形状。多层感知机（MLP）则更为直接：把每个输入特征——例如年龄、血压或化验值——视为独立的数值，同时学习它们的加权组合，不假定任何特定的顺序或邻域关系。

把医学表格拿来考验

为了观察这些模型在实际健康数据上的表现，团队使用了三组广为人知、更像电子表格而非图像的医学数据集。一组包含新冠患者的实验室与临床特征，用于预测谁能存活；另一组是显微镜下乳腺肿瘤的测量数据，用于区分恶性与良性；第三组来自心脏病学数据库，记录了经典的心脏病风险因素。重要的是，这些数据集按列并排列出变量，但与图像中的像素不同，并不存在自然的“从左到右”的有意义顺序。

打乱列顺序并摇晃模型

研究的核心是一场大规模压力测试。作者反复打乱输入列的顺序，同时随机更改CNN设计的关键部分，例如使用多少个小“patch读取器”（卷积核）、这些patch的宽度以及最终决策层的神经元数量。对于每一种列顺序与架构组合——共计1,000种排列——他们训练了CNN，并同步训练了可比的MLP。研究并不只关注单一的“最佳”准确度，而是考察这些运行中性能分布的宽度，使用ROC曲线下面积（AUROC）来汇总每个模型区分病人和健康人的能力。

他们在黑箱中发现了什么

结果为CNN在非影像医学表格上的表现画出了一幅令人警醒的图景。在某些精心选择的设置下，CNN的峰值表现可以与MLP持平甚至略优——尤其是在乳腺癌数据上，那里的许多特征非常强且能明显区分病例。但在所有的列顺序与架构组合中，CNN的性能波动更大，且存在偶发非常差表现的令人担忧的倾向。它们的成败在很大程度上依赖于任意选择：列的排列、每个扫描窗口的大小以及网络使用的滤波器和最终层节点数量。较大的扫描窗口会把许多相邻特征混在一起，这在这些非序列输入上持续损害平均性能和稳定性。

为何更简单的模型常表现更好

相比之下，MLP对列顺序的敏感度要低得多。由于它们不依赖局部邻域，打乱特征顺序并不会改变模型原则上能学到的内容。当研究者增加MLP隐藏层的神经元数量时，其性能稳步提升，常常超过CNN，即便其总参数数较少。那些具有明显信息性特征的数据集通常会为两类模型带来较高且稳定的得分，但CNN仍然伴随更高的偶发崩溃风险。在以较弱信号为主的更困难数据集上，CNN的性能随架构选择剧烈波动，而MLP则相对稳健。

给临床人工智能的要点

对于依赖类电子表格记录而不是影像的医疗应用，研究得出的结论是CNN可能是脆弱的工具。它们在某些基准上的表面强项可能反映了列顺序的偶然幸运和特定设计决策，而不是对医学模式的真正稳健学习。MLP及其他不假定有意义空间布局的方法，通常在数千次试验中表现出更可靠的行为。对医生、医院数据科学家和监管者而言，教训很明确：在基于表格化健康数据构建AI系统时，应优先考虑稳定性和透明性，而不是追求那些并非为此类输入设计的图像式网络所能达到的最高单次性能数字。

引用: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

关键词: 医学表格数据, 卷积神经网络, 多层感知机, 临床预测模型, 模型稳定性