Clear Sky Science · pt

Instabilidade e limites de desempenho de redes neurais convolucionais em dados tabulares médicos não-sequenciais: uma investigação empírica

· Voltar ao índice

Por que isso importa para a medicina cotidiana

Hospitais cada vez mais dependem de inteligência artificial para ajudar a prever quem tem câncer, doença cardíaca ou infecções graves usando registros médicos em formato de planilha em vez de imagens. Este estudo faz uma pergunta aparentemente simples, com grandes consequências práticas: as populares redes neurais desenvolvidas para imagens são realmente confiáveis quando lhes fornecemos esses dados médicos em colunas, ou elas se comportam de modo imprevisível e podem enganar médicos e pacientes?

Figure 1
Figure 1.

Dois tipos de calculadores inspirados no cérebro

Os pesquisadores compararam duas famílias de redes neurais que imitam, de forma bastante aproximada, como cérebros processam informação. Redes neurais convolucionais, ou CNNs, são os pilares do reconhecimento de imagem moderno. Elas varrem imagens em pequenos blocos, procurando padrões locais como bordas ou texturas, e em seguida constroem formas mais complexas. Perceptrons multicamada, ou MLPs, adotam uma abordagem mais simples: tratam cada característica de entrada — como idade, pressão arterial ou um valor laboratorial — como um número independente e aprendem combinações ponderadas de todas ao mesmo tempo, sem assumir qualquer ordem ou vizinhança específica.

Submetendo tabelas médicas ao teste

Para ver como esses modelos se comportam em dados de saúde do mundo real, a equipe usou três conjuntos de dados médicos bem conhecidos que se parecem mais com planilhas do que com imagens. Um continha características clínicas e laboratoriais de pacientes com COVID‑19, usado para prever quem sobreviveria. Outro descrevia medições microscópicas de tumores de mama, usado para distinguir casos malignos de benignos. O terceiro capturava fatores clássicos de risco para doença cardíaca de um banco de dados de cardiologia. Importante: esses conjuntos de dados listam variáveis lado a lado, mas não existe uma ordem “esquerda‑para‑direita” natural que carregue significado, ao contrário dos pixels em uma imagem.

Embaralhando as colunas e sacudindo os modelos

O cerne do estudo foi um teste de estresse massivo. Os autores embaralharam repetidamente a ordem das colunas de entrada e, ao mesmo tempo, alteraram aleatoriamente partes-chave do design das CNNs, como quantos “leitores de patch” (kernels) eram usados, quão largos eram esses patches e quantos neurônios havia na camada final de tomada de decisão. Para cada combinação de embaralhamento e arquitetura — 1.000 permutações no total — treinaram a CNN e, em paralelo, um MLP comparável. Em vez de focar em uma única acurácia “melhor”, observaram como as pontuações de desempenho se distribuíam por todas essas execuções, usando a área sob a curva ROC (AUROC) como resumo de quão bem cada modelo separava pacientes doentes de saudáveis.

Figure 2
Figure 2.

O que encontraram dentro da caixa preta

Os resultados desenharam um quadro sóbrio para as CNNs em tabelas médicas não‑visuais. Em alguns cenários cuidadosamente escolhidos, as CNNs podiam igualar ou até superar levemente os MLPs no pico de desempenho — especialmente nos dados do câncer de mama, que continham muitas características fortes e claramente separadoras. Mas ao longo de todos os embaralhamentos e arquiteturas, as CNNs exibiram oscilações muito maiores no desempenho, com uma tendência preocupante a execuções ocasionalmente muito ruins. Seu sucesso ou fracasso dependia fortemente de escolhas arbitrárias: como as colunas foram ordenadas, o tamanho de cada janela de varredura e quantos filtros e neurônios na camada final a rede usava. Janelas de varredura maiores, que misturam muitas características vizinhas, prejudicaram de forma consistente tanto o desempenho médio quanto a estabilidade nesses inputs não‑sequenciais.

Por que modelos mais simples frequentemente se saíram melhor

Os MLPs, em contraste, foram muito menos sensíveis à ordem das colunas. Como não dependem de vizinhanças locais, embaralhar as características não mudava o que o modelo podia, em princípio, aprender. Quando os pesquisadores aumentaram o número de neurônios na camada oculta do MLP, seu desempenho melhorou de forma constante e frequentemente superou o das CNNs, apesar de usar menos parâmetros totais. Conjuntos de dados com características claramente informativas tenderam a gerar pontuações altas e estáveis para ambos os modelos, mas as CNNs ainda apresentaram um risco maior de colapsos ocasionais. Em conjuntos de dados mais difíceis, dominados por sinais fracos, o desempenho das CNNs variou drasticamente com escolhas de arquitetura, enquanto os MLPs permaneceram comparativamente estáveis.

Mensagem principal para IA clínica

Para aplicações médicas que dependem de registros em formato de planilha em vez de imagens, este estudo conclui que as CNNs podem ser ferramentas frágeis. Sua aparente força em alguns benchmarks pode refletir uma ordenação de colunas favorável e decisões de projeto específicas, em vez de uma aprendizagem genuinamente robusta de padrões médicos. MLPs e outros métodos que não assumem um layout espacial significativo geralmente ofereceram comportamento mais confiável ao longo de milhares de testes. Para médicos, cientistas de dados hospitalares e reguladores, a lição é clara: ao construir sistemas de IA sobre dados tabulares de saúde, é mais seguro priorizar estabilidade e transparência em vez de perseguir o maior número único de desempenho obtido por redes estilo‑imagem que nunca foram projetadas para esses tipos de entrada.

Citação: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Palavras-chave: dados tabulares médicos, redes neurais convolucionais, perceptron multicamada, modelos de predição clínica, estabilidade do modelo