Clear Sky Science · fr

Instabilité et limites de performance des réseaux de neurones convolutionnels sur des données médicales tabulaires non séquentielles : une enquête empirique

· Retour à l’index

Pourquoi c’est important pour la médecine quotidienne

Les hôpitaux s’appuient de plus en plus sur l’intelligence artificielle pour aider à prédire qui a un cancer, une maladie cardiaque ou une infection grave en utilisant des dossiers médicaux de type tableur plutôt que des images. Cette étude pose une question apparemment simple mais aux conséquences pratiques importantes : les réseaux neuronaux populaires conçus pour les images sont‑ils réellement fiables lorsqu’on leur fournit de telles données médicales en colonnes non imagées, ou se comportent‑ils de façon imprévisible au point de risquer d’induire en erreur médecins et patients ?

Figure 1
Figure 1.

Deux types de calculateurs inspirés du cerveau

Les chercheurs ont comparé deux familles de réseaux neuronaux qui imitent, de façon très approximative, la manière dont le cerveau traite l’information. Les réseaux convolutionnels, ou CNN, sont les piliers de la reconnaissance d’images moderne. Ils parcourent les images par petites zones, recherchant des motifs locaux comme des contours ou des textures, puis assemblent ces motifs en formes plus complexes. Les perceptrons multicouches, ou MLP, adoptent une approche plus simple : ils considèrent chaque variable d’entrée — par exemple l’âge, la tension artérielle ou une valeur de laboratoire — comme un nombre indépendant et apprennent des combinaisons pondérées de l’ensemble, sans présupposer d’ordre ou de voisinage particulier.

Mettre les tableaux médicaux à l’épreuve

Pour évaluer le comportement de ces modèles sur des données de santé réelles, l’équipe a utilisé trois jeux de données médicaux bien connus qui ressemblent davantage à des tableurs qu’à des images. L’un contenait des caractéristiques cliniques et de laboratoire de patients atteints de COVID‑19, utilisées pour prédire qui survivrait. Un autre décrivait des mesures microscopiques de tumeurs du sein, visant à distinguer les cas malins des bénins. Le troisième rassemblait des facteurs de risque cardiovasculaire classiques issus d’une base de données en cardiologie. Il est important de noter que ces jeux de données listent les variables côte à côte, sans ordre naturel « gauche‑à‑droite » porteur de sens, contrairement aux pixels d’une image.

Mélanger les colonnes et secouer les modèles

Le cœur de l’étude consistait en un test de résistance massif. Les auteurs ont répété le mélange de l’ordre des colonnes d’entrée et, simultanément, modifié au hasard des éléments clés de l’architecture CNN, tels que le nombre de « lecteurs de patch » (noyaux), la largeur de ces patches et le nombre de neurones de la couche de décision finale. Pour chaque combinaison mélange‑architecture — 1 000 permutations au total — ils ont entraîné le CNN et, en parallèle, un MLP comparable. Plutôt que de se concentrer sur une unique précision « maximale », ils ont observé la dispersion des performances sur l’ensemble des runs, en utilisant l’aire sous la courbe ROC (AUROC) comme résumé de la capacité de chaque modèle à différencier malades et personnes saines.

Figure 2
Figure 2.

Ce qu’ils ont découvert à l’intérieur de la boîte noire

Les résultats dressent un tableau prudent pour les CNN appliqués à des tableaux médicaux non imagés. Dans certains réglages soigneusement choisis, les CNN pouvaient égaler voire légèrement surpasser les MLP sur les performances de pointe — en particulier sur les données du cancer du sein, qui comprenaient de nombreuses variables fortement discriminantes. Mais sur l’ensemble des mélanges et des architectures, les CNN ont montré des variations de performance beaucoup plus larges, avec une inquiétante propension à des runs occasionnellement très faibles. Leur succès ou leur échec dépendait fortement de choix arbitraires : l’ordre des colonnes, la taille de la fenêtre de balayage et le nombre de filtres et de neurones de la couche finale. Des fenêtres de balayage plus larges, qui mélangent de nombreuses variables voisines, nuisaient systématiquement tant à la performance moyenne qu’à la stabilité sur ces entrées non séquentielles.

Pourquoi les modèles plus simples se comportaient souvent mieux

Les MLP, en revanche, étaient beaucoup moins sensibles à l’ordre des colonnes. Comme ils ne reposent pas sur des voisinages locaux, le mélange des variables ne changeait pas, en principe, ce que le modèle pouvait apprendre. Lorsque les chercheurs ont augmenté le nombre de neurones dans la couche cachée du MLP, ses performances se sont améliorées de manière régulière et ont souvent dépassé celles des CNN, malgré un nombre total de paramètres inférieur. Les jeux de données contenant des variables clairement informatives produisaient des scores élevés et stables pour les deux modèles, mais les CNN conservaient un risque plus élevé d’effondrements occasionnels. Sur des jeux de données plus difficiles, dominés par des signaux faibles, la performance des CNN variait énormément selon les choix d’architecture, tandis que les MLP restaient relativement stables.

Message essentiel pour l’IA clinique

Pour les applications médicales qui reposent sur des dossiers de type tableur plutôt que sur des images, cette étude conclut que les CNN peuvent être des outils fragiles. Leur apparente supériorité sur certains benchmarks peut refléter un ordre favorable des colonnes et des décisions de conception particulières plutôt qu’un apprentissage réellement robuste des motifs médicaux. Les MLP, et d’autres méthodes qui n’assument pas une disposition spatiale significative, offraient généralement un comportement plus fiable sur des milliers d’expériences. Pour les médecins, les data scientists hospitaliers et les régulateurs, la leçon est claire : lors de la construction de systèmes d’IA sur des données de santé tabulaires, il est plus sûr de privilégier la stabilité et la transparence plutôt que de rechercher le meilleur score ponctuel obtenu par des réseaux conçus pour des images et non pour ces types d’entrées.

Citation: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Mots-clés: données médicales tabulaires, réseaux de neurones convolutionnels, perceptron multicouche, modèles de prédiction clinique, stabilité du modèle