Clear Sky Science · fr

Prédiction de la maladie d’Alzheimer par apprentissage profond et sélection interprétable de caractéristiques XAI à partir de données d’expression génique sanguine

· Retour à l’index

Pourquoi cette recherche est importante

La maladie d’Alzheimer prive lentement les personnes de leur mémoire et de leur autonomie, pourtant les tests les plus précis d’aujourd’hui nécessitent souvent des scans cérébraux ou des ponctions lombaires, coûteux, invasifs et difficiles à répéter. Cette étude examine une alternative moins contraignante : utiliser une simple prise de sang et une analyse informatique avancée pour détecter des motifs d’activité génique annonciateurs d’Alzheimer, ouvrant potentiellement la voie à un diagnostic plus précoce et plus accessible.

Figure 1
Figure 1.

Un test sanguin plutôt qu’un scan cérébral

Les auteurs se concentrent sur de légères variations dans la manière dont les gènes sont activés ou désactivés dans les cellules sanguines. Les puces de laboratoire modernes peuvent mesurer l’activité de milliers de gènes simultanément, produisant pour chaque personne un vaste tableau de chiffres. Le défi est qu’il y a bien plus de mesures géniques que de patients, ce qui peut facilement induire en erreur les modèles informatiques. Pour contourner ce problème, les chercheurs ont combiné trois grands jeux de données publics de prélèvements sanguins de personnes atteintes d’Alzheimer et de volontaires sains, créant une ressource intégrée de plus de douze mille gènes communs mesurés chez des centaines d’individus.

Apprendre aux ordinateurs à repérer les signaux d’alerte clés

Plutôt que de demander à un algorithme de digérer les douze mille gènes, l’équipe l’a d’abord entraîné à en sélectionner un ensemble beaucoup plus restreint et particulièrement informatif. Ils ont comparé plusieurs méthodes pour cela, incluant des tests statistiques simples, des méthodes qui éliminent progressivement les gènes moins utiles, et des approches qui intègrent la sélection directement dans le modèle. Ces outils de « sélection de caractéristiques » ont réduit la liste à quelques centaines, voire un peu plus d’un millier de gènes qui distinguaient le mieux les patients des témoins sains. Les jeux de gènes réduits ont aidé à empêcher les modèles de mémoriser le bruit et ont amélioré leurs performances sur des données non vues.

Figure 2
Figure 2.

Donner du sens à une boîte noire

Pour éviter une confiance aveugle dans une prédiction de type boîte noire, les chercheurs ont utilisé des techniques d’intelligence artificielle explicable pour comprendre quels gènes importaient le plus et comment ils influençaient chaque décision. Une méthode appelée SHAP, empruntée à la théorie des jeux, attribue un score à la contribution de chaque gène au résultat final pour chaque personne. En l’appliquant à leurs modèles les plus performants, les auteurs ont mis en évidence un groupe central de gènes dont les profils d’activité faisaient systématiquement pencher la balance vers une classification Alzheimer ou saine. Bon nombre de ces gènes ont déjà été associés à la santé cérébrale ou à la fonction immunitaire, ce qui confère une crédibilité biologique au fonctionnement interne du modèle.

Renforcer la puissance par des patients synthétiques

Même après la fusion des jeux de données, le nombre d’échantillons sanguins réels restait modeste. Pour renforcer leurs modèles, les auteurs ont entraîné un type spécialisé de réseau neuronal, connu sous le nom de réseau antagoniste génératif, pour créer des profils géniques synthétiques réalistes ressemblant à ceux de patients réels. Ces échantillons artificiels ont été ajoutés uniquement aux données d’entraînement, jamais aux données de test, de sorte que les évaluations de performance restent honnêtes. Avec ce pool d’entraînement augmenté et des gènes soigneusement sélectionnés, un réseau neuronal profond a pu identifier les cas d’Alzheimer avec environ 91 % de précision globale et 95 % de précision positive, ce qui signifie que très peu de personnes saines ont été incorrectement signalées comme malades.

Ce que ces résultats signifient pour les patients

Ce travail suggère qu’un futur test sanguin pour Alzheimer, alimenté par des algorithmes intelligents qui sélectionnent et expliquent les signaux géniques clés, pourrait compléter voire réduire la dépendance aux examens coûteux et aux procédures invasives. Bien que des validations supplémentaires soient nécessaires sur des cohortes indépendantes de patients, et que les différences entre méthodes de laboratoire doivent être mieux contrôlées, l’étude montre que combiner plusieurs jeux de données, éliminer les informations non pertinentes et ouvrir la « boîte noire » de l’IA peut nous rapprocher d’un test sanguin pratique et interprétable pour une détection plus précoce et plus confortable de la maladie d’Alzheimer.

Citation: Hariharan, J., Jothi, R. Alzheimer’s disease prediction using deep learning and XAI based interpretable feature selection from blood gene expression data. Sci Rep 16, 8022 (2026). https://doi.org/10.1038/s41598-026-35260-8

Mots-clés: diagnostic de la maladie d’Alzheimer, biomarqueurs sanguins, expression génique, apprentissage profond, IA explicable